dataframes

python - Spark Dataframe 区分名称重复的列

据我所知，在SparkDataframe中，多个列可以具有相同的名称，如下面的数据帧快照所示:[Row(a=107831,f=SparseVector(5,{0:0.0,1:0.0,2:0.0,3:0.0,4:0.0}),a=107831,f=SparseVector(5,{0:0.0,1:0.0,2:0.0,3:0.0,4:0.0})),Row(a=107831,f=SparseVector(5,{0:0.0,1:0.0,2:0.0,3:0.0,4:0.0}),a=125231,f=SparseVector(5,{0:0.0,1:0.0,2:0.0047,3:0.0,4:0.0043

python - 将pandas DataFrame中带逗号的数字字符串转换为 float

我有一个DataFrame，其中包含作为千位标记的逗号字符串形式的数字。我需要将它们转换为float。a=[['1,200','4,200'],['7,000','-0.03'],['5','0']]df=pandas.DataFrame(a)我猜我需要使用locale.atof。确实df[0].apply(locale.atof)按预期工作。我得到了一系列的花车。但是当我将它应用到DataFrame时，我得到了一个错误。df.apply(locale.atof)TypeError:("cannotconverttheseriesto",u'occurredatindex0')和df[

中带 DataFrame 39 code locale python pandas

python - 获取 Pandas DataFrame 的行索引值作为列表？

这个问题在这里已经有了答案:HowdoIconvertaPandasseriesorindextoaNumPyarray?[duplicate](8个回答)关闭3年前。我在试图找到这个答案时可能使用了糟糕的搜索词。现在，在索引DataFrame之前，我以这种方式获取列中的值列表...list=list(df['column'])...然后我将在列上set_index。这似乎是一个浪费的步骤。在索引上尝试上述操作时，我得到一个关键错误。如何获取索引(单索引和多索引)中的值并将它们放入列表或元组列表中？最佳答案获取index值作为l

DataFrame python section code index list pandas indexing

python - 如何将 pandas DataFrame 中的列取消嵌套(分解)成多行

我有以下DataFrame，其中一列是对象(列表类型单元格):df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]})输出:AB01[1,2]12[1,2]我的预期输出是:AB011112321422我应该怎么做才能做到这一点？相关问题Pandascolumnoflists,createarowforeachlistelement很好的问题和答案，但只处理列表中的一列(在我的答案中，自定义功能将适用于多列，并且接受的答案是使用最耗时的apply，即不推荐，查看更多信息WhenshouldI(not)wanttousepandasapply()inmy

多行 DataFrame code strong df python pandas pandas-explode

python - 将 Pandas 系列转换为 DataFrame

我有一个Pandas系列科幻小说:emailemail1@email.com[1.0,0.0,0.0]email2@email.com[2.0,0.0,0.0]email3@email.com[1.0,0.0,0.0]email4@email.com[4.0,0.0,0.0]email5@email.com[1.0,0.0,3.0]email6@email.com[1.0,5.0,0.0]我想将其转换为以下DataFrame:index|email|list_____________________________________________0|email1@email.com|[

DataFrame python email 0.0 pandas series

python - 在 DataFrame 索引上应用函数

在PandasDataFrame的索引上应用函数的最佳方法是什么？目前我正在使用这种详细的方法:pd.DataFrame({"Month":df.reset_index().Date.apply(foo)})其中Date是索引的名称，foo是我正在应用的函数的名称。最佳答案正如HYRY在评论中已经建议的那样，Series.map是去这里的路。只需将索引设置为结果系列。简单示例:df=pd.DataFrame({'d':[1,2,3]},index=['FOO','BAR','BAZ'])dfdFOO1BAR2BAZ3df.ind

DataFrame python code section index pandas indexing

python - 如何合并 Series 和 DataFrame

IfyoucameherelookingforinformationonhowtomergeaDataFrameandSeriesontheindex,pleaselookatthisanswer.TheOP'soriginalintentionwastoaskhowtoassignserieselementsascolumnstoanotherDataFrame.Ifyouareinterestedinknowingtheanswertothis,lookattheacceptedanswerbyEdChum.我能想到的最好的就是df=pd.DataFrame({'a':[1,2],

DataFrame python code Series section pandas

python ， Pandas : write content of DataFrame into text File

我有这样的Pandas数据框XYZValue0185517011855267218572753185813541954270我想将此数据写入如下所示的文本文件:18551701855267185727518581351954270我尝试过类似的东西f=open(writePath,'a')f.writelines(['\n',str(data['X']),'',str(data['Y']),'',str(data['Z']),'',str(data['Value'])])f.close()这是不正确的。如何做到这一点？最佳答案您

DataFrame content code 39 section python pandas file-io

python - 从嵌套字典中的项目构造 pandas DataFrame

假设我有一个嵌套字典'user_dict'的结构:1级:UserId(长整数)2级:类别(字符串)第3级:各种属性(float、整数等)例如，这个字典的一个条目是:user_dict[12]={"Category1":{"att_1":1,"att_2":"whatever"},"Category2":{"att_1":23,"att_2":"another"}}user_dict中的每个项目都具有相同的结构，并且user_dict包含大量项目，我想将这些项目提供给pandasDataFrame，从属性构造系列。在这种情况下，分层索引将对此有用。具体来说，我的问题是是否有办法帮助Dat

DataFrame python Category 39 code pandas multi-index

python - 如何按索引对 Pandas DataFrame 进行排序？

当有如下DataFrame时:importpandasaspddf=pd.DataFrame([1,1,1,1,1],index=[100,29,234,1,150],columns=['A'])如何在索引和列值的每个组合完好无损的情况下按索引对该数据帧进行排序？最佳答案 Dataframes有一个sort_index方法默认返回一个副本。通过inplace=True就地操作。importpandasaspddf=pd.DataFrame([1,2,3,4,5],index=[100,29,234,1,150],columns=[

DataFrame python section code pandas

116 117 118119120 121 122