DataFrames

如何将Python函数应用于“从末端” pandas sub-dataframes拆分并获得新的数据框架？

问题从熊猫数据框开始df由dim_df行，我需要一个新的数据框df_new获得将功能应用于每个子数据框维度dim_blk,从最后一行开始分裂（因此，第一个块而不是最后一个块可能具有正确的行数，dim_blk),以最有效的方式（可能被矢量化？）。例子在下面的示例中，数据框是由几行制成的，但是实际的数据框将由数百万行制成，这就是为什么我需要有效的解决方案。dim_df=7#dimensionofthestartingdataframedim_blk=3#numberofrowsofthesplittedblockdf=pd.DataFrame(np.arange(1,dim_df+1),colum

拆分末端 code df pre

hadoop - Apache Spark : Apply existing mllib model on Incoming DStreams/DataFrames

使用ApacheSpark的mllib，我有一个存储在HDFS中的逻辑回归模型。此逻辑回归模型是根据来自某些传感器的历史数据进行训练的。我有另一个spark程序，它使用来自这些传感器的流数据。我希望能够使用预先存在的训练模型对传入的数据流进行预测。注意:我不希望我的模型被这些数据更新。要加载训练模型，我必须在我的代码中使用以下行:vallogisticModel=LogisticRegressionModel.load(sc,)sc:Spark上下文。但是，这个应用程序是一个流应用程序，因此已经有一个“StreamingContext”设置。现在，根据我的阅读，在同一个程序中有两个上下

DataFrames Incoming code StreamingContext SparkContext hadoop apache-spark machine-learning apache-spark-mllib

使用R中的大量dataFrames访问数据框的列

所以我一直在努力解决这个问题。我仍然是R的新手，在这里还没有找到解决方案。我有一个data.frame看起来像这样：LandAverageTemperatureLandAverageTemperatureUncertaintydateyear13.03400000000000033.5741750-01-01175023.0833.7021750-02-01175035.6263.0761750-03-01175048.492.4511750-04-011750511.5732.0721750-05-011750612.9370000000000011.7241750-06-011750所以我

dataFrames 大量 code LandAverageTemperature section

python - Pandas 通过两列左连接 DataFrames

你能帮我加入两个DataFrame吗？我有两个DataFrame。df1:indexval1val2--------------------1str1abc12str2abc23str3abc34str4abc95str5abc4df2:indexval2------------1abc12abc24abc35abc49abc5我需要基于前两个创建一个DataFrame，并通过两列进行左连接。列index和val2在两个DataFrame中具有相同的名称。df3的结果应该是这样的:indexval1val2val3----------------------------1str1abc

DataFrames python val abc code pandas dataframe merge

python - Pandas DataFrames 如何看起来相同但 equals() 失败？

为了确认我理解Pandasdf.groupby()和df.reset_index()的作用，我尝试从数据帧到相同数据的分组版本并返回。往返之后，列和行必须再次排序，因为groupby()影响行顺序而reset_index()影响列顺序，但经过两次快速操作后将列和索引按顺序放回去，数据框看起来相同:相同的列名列表。每列的数据类型相同。相应的索引值严格相等。对应的数据值严格相等。然而，在所有这些检查都成功之后，df1.equals(df5)返回了惊人的值False。这些数据帧之间的区别是equals()揭示了我还没有弄清楚如何检查自己？测试代码:csv_text="""\Title,Yea

DataFrames python code 39 True pandas

python - Pandas Dataframes 到 MultiIndex Dataframe 的字典

我有一个PandasDataframes的字典，比如说d={A:pd.DataFrame([[0,1,2],[2,2,4]),B:pd.DataFrame([[1,1,1],[2,2,2]}我想将其更改为这样的MultiIndexDataFrame:A00,1,212,2,4B01,1,112,2,2 最佳答案使用pd.concat在字典值上，将keys参数设置为字典键:df=pd.concat(d.values(),keys=d.keys())结果输出:012A00121224B01111222

Dataframes MultiIndex code section pre python pandas

python - Apache Spark Python 与 DataFrames 的余弦相似度

对于推荐系统，我需要计算整个SparkDataFrame的所有列之间的余弦相似度。在Pandas中，我曾经这样做过:importsklearn.metricsasmetricsimportpandasaspddf=pd.DataFrame(...somedataframeoverhere:D...)metrics.pairwise.cosine_similarity(df.T,df.T)生成列之间的相似度矩阵(因为我使用了转置)有什么方法可以在Spark(Python)中做同样的事情吗？(我需要将其应用于由数千万行和数千列组成的矩阵，所以这就是我需要在Spark中执行的原因)

DataFrames python section code RowMatrix apache-spark pyspark apache-spark-sql cosine-similarity

python - DataFrames 的点箱线图

Pandas中的数据框有一个boxplot方法，但是有什么方法可以在Pandas中创建dot-boxplots，或者以其他方式使用seaborn？点箱线图是指在图中显示实际数据点(或它们的相关样本)的箱线图，例如就像下面的例子(在R中获得)。最佳答案有关OP问题的更准确答案(使用Pandas):importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltdata=pd.DataFrame({"A":np.random.normal(0.8,0.2,20),"B":np.r

DataFrames python section boxplot normal matplotlib pandas seaborn

python - PySpark DataFrames - 在不转换为 Pandas 的情况下进行枚举的方法？

我有一个非常大的pyspark.sql.dataframe.DataFrame名为df。我需要一些枚举记录的方法——因此，能够访问具有特定索引的记录。(或选择具有索引范围的记录组)在Pandas中，我可以做到indexes=[2,3,6,7]df[indexes]我想要类似的东西，(并且没有将数据框转换为pandas)我能得到的最接近的是:通过以下方式枚举原始数据框中的所有对象:indexes=np.arange(df.count())df_indexed=df.withColumn('index',indexes)使用where()函数搜索我需要的值。问题:为什么它不起作用以及如何让

DataFrames PySpark code indexes index python apache-spark bigdata rdd

python - PySpark DataFrames - 在不转换为 Pandas 的情况下进行枚举的方法？

DataFrames PySpark code indexes index python apache-spark bigdata rdd

12 3 4