草庐IT

pyspark-dataframes

全部标签

python - Pandas DataFrame 中的舍入条目

使用:newdf3.pivot_table(rows=['Quradate'],aggfunc=np.mean)产生:Alabama_expCredit_expInventory_expNational_expPrice_expSales_expQuradate2010-01-150.5680030.4044810.4886010.4830970.4312110.5707552010-04-150.5436200.3854170.4550780.4687500.4082030.564453我想将小数四舍五入为两位数并乘以100,例如.568003应该是57已经摆弄了一段时间但无济于事;

python - 如何在pyspark脚本中访问SparkContext

下面的SOF问题HowtorunscriptinPysparkanddropintoIPythonshellwhendone?说明如何启动pyspark脚本:%run-dmyscript.py但是我们如何访问existinspark上下文呢?仅仅创建一个新的是行不通的:---->sc=SparkContext("local",1)ValueError:CannotrunmultipleSparkContextsatonce;existingSparkContext(app=PySparkShell,master=local)createdbyat/Library/Python/2.7/

python - 来自 Pandas DataFrame 的烛台图中的重叠日期

我有一个pandasdataframe输出如下OpenHighLowClose2016-06-0169.6070.2069.4469.762016-06-0270.0070.1569.4569.542016-06-0369.5170.4868.6268.912016-06-0469.5170.4868.6268.912016-06-0569.5170.4868.6268.912016-06-0670.4971.4469.8470.11我使用以下代码制作烛台图:importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimpor

python - `.loc` 和 `.iloc` 与 MultiIndex'd DataFrame

当索引一个MultiIndex-edDataFrame时,似乎.iloc假定您引用索引的“内部级别”,而.loc查看外部水平。例如:np.random.seed(123)iterables=[['bar','baz','foo','qux'],['one','two']]idx=pd.MultiIndex.from_product(iterables,names=['first','second'])df=pd.DataFrame(np.random.randn(8,4),index=idx)#.loclooksattheouterindex:print(df.loc['qux'])#

Python Pandas,创建指定列 dtypes 的空 DataFrame

有一件事我发现自己必须经常做,令我惊讶的是在Pandas中实现这一点有多么困难。假设我需要创建一个具有指定索引类型和名称以及列类型和名称的空DataFrame。(我可能想稍后填充它,例如在一个循环中。)我发现最简单的方法是为每一列创建一个空的pandas.Series对象,指定它们dtype,将它们放入指定其名称的字典中,并将字典传递给DataFrame构造函数。类似于以下内容。defcreate_empty_dataframe():index=pandas.Index([],name="id",dtype=int)column_names=["name","score","heigh

python - 使用 pandas,我如何有效地按组对大型 DataFrame 进行子采样?

我正在尝试根据分组对DataFrame的行进行子采样。这是一个例子。假设我定义了以下数据:frompandasimport*df=DataFrame({'group1':["a","b","a","a","b","c","c","c","c","c","a","a","a","b","b","b","b"],'group2':[1,2,3,4,1,3,5,6,5,4,1,2,3,4,3,2,1],'value':["apple","pear","orange","apple","banana","durian","lemon","lime","raspberry","durian","

python - 按行中非空元素的计数对 PySpark Dataframe 进行统一分区

我知道有上千个问题与如何最好地划分您的DataFrames有关或RDDs通过salting键等,但我认为这种情况不同到足以证明它自己的问题。我正在PySpark中构建协同过滤推荐引擎,这意味着需要比较每个用户(行)的唯一项目评分。所以,对于DataFrame尺寸M(rows)xN(columns),这意味着数据集变为Mx(Kchoose2)其中K是用户的非空(即评级)元素的数量。对于用户对项目数量大致相同的数据集,我的算法非常有效。但是,对于一部分用户对很多项目进行评分的情况(比同一分区中的其他用户大几个数量级),我的数据变得极度倾斜并且最后几个分区开始占用大量资源时间量。举个简单的例

c# - C#.NET 中的 Pandas Dataframe 或类似工具

我目前正致力于实现Gurobi线性规划模型的C#版本,该模型之前是用Python构建的。我有许多CSV文件,我从中导入数据并创建pandas数据帧,我从这些数据帧中获取列以创建我在线性程序中使用的变量。使用dataframes创建变量的python代码如下:dataPath="C:/Users/XYZ/Desktop/LinearProgramming/TestData"routeData=pd.DataFrame.from_csv(os.path.join(dataPath,"DirectLink.csv"),index_col=None)#Creating3Python-dicti

python - 旋转 Panda DataFrame 的列名

我正在尝试从pandas制作格式良好的表格。我的一些列名称太长了。这些列的单元格很大,导致整个表格变得一团糟。在我的示例中,是否可以在显示时旋转列名称?data=[{'Waytoolongofacolumntobereasonable':4,'Four?':4},{'Waytoolongofacolumntobereasonable':5,'Four?':5}]pd.DataFrame(data) 最佳答案 类似于:data=[{'Waytoolongofacolumntobereasonable':4,'Four?':4},{'W

python - 对 Pandas Dataframe 的行求和

我有一个看起来像这样的记录DataFrame:stocks=pd.Series(['A','A','B','C','C'],name='stock')positions=pd.Series([100,200,300,400,500],name='positions')same1=pd.Series(['AA','AA','BB','CC','CC'],name='same1')same2=pd.Series(['AAA','AAA','BBB','CCC','CCC'],name='same2')diff=pd.Series(['A1','A2','B3','C1','C2'],nam