pyspark-dataframes

python - 将 pandas DataFrame 旋转 90 度

基本上我想将pandasDataFrame旋转90度(顺时针)，这样如果它是df:ABCD0536716352它会变成df:65A33B56C27D有没有办法用枢轴或其他方式做到这一点？谢谢! 最佳答案转置In[1]:df=DataFrame([[5,3,6,7],[6,3,5,2]],index=[0,1],columns=list('ABCD'))In[2]:dfOut[2]:ABCD0536716352In[3]:df.TOut[3]:01A56B33C65D72我猜你真的想要这个In[7]:df.T.reset_index

python - Pyspark - 多列聚合

我有如下数据。文件名:babynames.csv。yearnamepercentsex1880John0.081541boy1880William0.080511boy1880James0.050057boy我需要根据年份和性别对输入进行排序，并且我希望像下面这样聚合输出(此输出将分配给新的RDD)。yearsexavg(percentage)count(rows)1880boy0.0707033我不确定在pyspark中执行以下步骤后如何继续。需要你的帮助testrdd=sc.textFile("babynames.csv");rows=testrdd.map(lambday:y.s

多列 Pyspark code section 34 python python-2.7 apache-spark

python - 如何基于部分匹配选择DataFrame列？

今天下午我一直在努力寻找一种方法来选择我的PandasDataFrame中的几列，方法是检查名称(标签？)中特定模式的出现。我一直在为nd.arrays/pd.series寻找类似contains或isin的东西，但没有运气。这让我很沮丧，因为我已经在检查我的DataFrame的列是否出现了特定的字符串模式，如:hp=~(df.target_column.str.contains('some_text')|df.target_column.str.contains('other_text'))df_cln=df[hp]但是，无论我怎么撞脑袋，我都无法将.str.contains()应用

DataFrame python code section columns pandas

python - AssertionError : invalid dtype determination in get_concat_dtype when concatenating operation on list of Dataframes的解决方法

我有一个Dataframes列表，我正尝试使用连接函数将它们组合起来。dataframe_lists=[df1,df2,df3]result=pd.concat(dataframe_lists,keys=['one','two','three'],ignore_index=True)完整的追溯是:---------------------------------------------------------------------------AssertionErrorTraceback(mostrecentcalllast)in()---->1result=pd.concat(da

dtype get_concat_dtype 39 code concat python csv pandas

python - 删除 pandas.Dataframe 中重复列的快速方法

这个问题在这里已经有了答案:pythonpandasremoveduplicatecolumns(15个答案)关闭7个月前。所以通过使用df_ab=pd.concat([df_a,df_b],axis=1,join='inner')我得到一个如下所示的数据框:AABB05510101661919我想删除它的多列:AB05101619因为df_a和df_b是同一Dataframe的子集，我知道如果列名相同，则所有行都具有相同的值。我有一个可行的解决方案:df_ab=df_ab.T.drop_duplicates().T但是我有很多行，所以这一行非常慢。有人有更快的解决方案吗？我更喜欢不需

Dataframe python section code pre pandas

python - 使用 Spark DataFrame 列制作直方图

我正在尝试使用数据框中的列制作直方图，看起来像DataFrame[C0:int,C1:int,...]如果我要用C1列制作直方图，我应该怎么做？我尝试过的一些事情是df.groupBy("C1").count().histogram()df.C1.countByValue()由于数据类型不匹配而不起作用。最佳答案 pyspark_dist_explore@ChrisvandenBerg提到的包非常好。如果您不想添加额外的依赖项，您可以使用这段代码绘制一个简单的直方图。importmatplotlib.pyplotasplt#Sho

DataFrame python section pyspark_dist_explore code pandas apache-spark pyspark apache-spark-sql

java - 在 PySpark 中调用 first() 时 Spark 作业失败

我刚刚在Windows7机器上构建了Spark(使用sbt)并且正在浏览quickstart。调用first()时Spark作业失败。我是Java的新手，并不清楚错误堆栈跟踪向我显示了什么，尽管它似乎与java.net.SocketException给定的消息传递有关。注意我没有使用Hadoop安装。另请注意，在Scala中运行此示例时，没有任何错误。环境:Windows7Spark1.2.1pythonPython2.7.8斯卡拉2.10.4sbt0.13.7jdk1.7.0.75In[2]:path=u'C:\\Users\\striji\\Documents\\Personal\

PySpark first scala java spark python apache-spark

python - 从 pandas DataFrame 中高效扩展行

我是pandas的新手，我正在尝试将一个奇怪的格式文件读入DataFrame。原始文件如下所示:;NoTimeDateMoistAveMatTempTDRConductTDRAveDeltaCounttpAveMoist1Moist2Moist3Moist4TDR1TDR2TDR3TDR4111:38:1711.07.201211.3748.205.1588.8715344.5011.8411.3511.5915.2589.089.089.088.0211:38:1811.07.201211.4448.205.1388.882346.2212.0811.83-1.00-1.0089.0

中高 DataFrame 89 11 39 python pandas

python - Pandas 面板花式索引 : How to return (index of) all DataFrames in Panel based on Boolean of multiple columns in each df

我有一个Pandas面板，其中包含许多具有相同行/列标签的DataFrame。我想用DataFrames制作一个新面板，满足基于几列的特定条件。这对于数据框和行来说很容易:假设我有一个df，zHe_compare。我可以获得合适的行:zHe_compare[(zHe_compare['zHe_calc']>100)&(zHe_compare['zHe_med']>100)|((zHe_obs_lo_2s但是我该怎么做(伪代码，简化的bool值):good_results_panel=results_panel[all_dataframes[sum('zHe_calc'min_num]]

花式 DataFrames code section results python indexing panel dataframe pandas

python - pandas.DataFrame.to_sql 中的最佳 chunksize 参数

使用需要转储到PostgreSQL表中的大型pandasDataFrame。从我读过的内容来看，一次转储不是一个好主意，(我正在锁定数据库)而不是使用chunksize范围。答案here对工作流有帮助，但我只是问影响性能的block大小的值。In[5]:df.shapeOut[5]:(24594591,4)In[6]:df.to_sql('existing_table',con=engine,index=False,if_exists='append',chunksize=10000)是否有推荐的默认值？将参数设置得更高或更低时，性能是否存在差异？假设我有内存来支持更大的block大小

DataFrame chunksize section pandas python postgresql