pyspark-dataframes

python - 属性错误 : 'DataFrame' object has no attribute 'map'

我想使用下面的代码转换Spark数据框来添加:frompyspark.mllib.clusteringimportKMeansspark_df=sqlContext.createDataFrame(pandas_df)rdd=spark_df.map(lambdadata:Vectors.dense([float(c)forcindata]))model=KMeans.train(rdd,2,maxIterations=10,runs=30,initializationMode="random")详细的错误信息是:------------------------------------

amp 39 code section spark_df python apache-spark pyspark spark-dataframe apache-spark-mllib

python - Pandas 在重复 DataFrame.reset_index() 上崩溃

这里有一个非常奇怪的错误:我正在使用pandas来合并几个数据框。作为合并的一部分，我必须多次调用reset_index。但是当我这样做时，它会在第二次或第三次使用reset_index时意外崩溃。这是重现错误的最少代码:importpandasA=pandas.DataFrame({'val':['aaaaa','acaca','ddddd','zzzzz'],'extra':range(10,14),})A=A.reset_index()A=A.reset_index()A=A.reset_index()这是回溯的相关部分:....A=A.reset_index()File"/us

reset_index DataFrame index 39 python pandas

python - 如何更新 Python Pandas DataFrame 中特定行中的值？

借助Pandas中出色的索引方法，我可以毫无问题地以各种方式提取数据。另一方面，我仍然对如何更改现有DataFrame中的数据感到困惑。在下面的代码中，我有两个DataFrame，我的目标是根据第二个df的值更新第一个df中特定行中的值。我怎样才能做到这一点？importpandasaspddf=pd.DataFrame({'filename':['test0.dat','test2.dat'],'m':[12,13],'n':[None,None]})df2=pd.DataFrame({'filename':'test2.dat','n':16},index=[0])#thisove

DataFrame python code filename 39 pandas

python - Pandas:从系列创建 DataFrame

我当前的代码如下所示-我正在导入一个MAT文件并尝试从其中的变量创建一个DataFrame:mat=loadmat(file_path)#loadmat-fileVariables=mat.keys()#identifyvariablenamesdf=pd.DataFrame#InitialiseDataFramefornameinVariables:B=mat[name]s=pd.Series(B[:,1])所以在循环中，我可以创建一系列每个变量(它们是具有两列的数组-所以我需要的值在第2列)我的问题是如何将系列附加到数据框中？我查看了文档，但似乎没有一个示例适合我正在尝试做的事情。

DataFrame python section code pandas mat

python - 如何将 Python 中 DataFrame 中的行转换为字典

例如，我现在有DataFrameidscore1score2score3score4score510.0000000.1086590.0000000.078597120.0532380.3082530.2863530.446433130.0000000.0839790.8089830.2330521我想把它转换成idscoreDict1{'1':0,'2':0.1086,...}2{...}3{...}无论如何要这样做？最佳答案 importpandasaspd#yourdf#=========================pr

DataFrame python score 39 section dictionary pandas

python - 如何加入 Pyspark 中的多个列？

我正在使用Spark1.3，并希望使用python接口(interface)(SparkSQL)加入多个列以下作品:我首先将它们注册为临时表。numeric.registerTempTable("numeric")Ref.registerTempTable("Ref")test=numeric.join(Ref,numeric.ID==Ref.ID,joinType='inner')我现在想根据多个列加入它们。我得到SyntaxError:invalidsyntaxwiththis:test=numeric.join(Ref,numeric.ID==Ref.IDANDnumeric.T

Pyspark python code 34 section apache-spark join apache-spark-sql

python - bool 系列键将被重新索引以匹配 DataFrame 索引

这是我遇到警告的方式:df.loc[a_list][df.a_col.isnull()]a_list的类型是Int64Index，它包含一个行索引列表。所有这些行索引都属于df。df.a_col.isnull()部分是我需要过滤的条件。如果我单独执行以下命令，我不会收到任何警告:df.loc[a_list]df[df.a_col.isnull()]但如果我将它们放在一起df.loc[a_list][df.a_col.isnull()]，我会收到警告消息(但我可以看到结果):BooleanSerieskeywillbereindexedtomatchDataFrameindex此警告消息

引以 DataFrame code a_list a_col python pandas

python - 在 Python Pandas DataFrame 中将 timedelta64[ns] 列转换为秒

pandasDataFrame列duration包含timedelta64[ns]，如图所示。如何将它们转换为秒？000:20:32100:23:10200:24:55300:13:17400:18:52Name:duration,dtype:timedelta64[ns]我尝试了以下printdf[:5]['duration']/np.timedelta64(1,'s')但出现错误Traceback(mostrecentcalllast):File"test.py",line16,inprintdf[0:5]['duration']/np.timedelta64(1,'s')File

DataFrame timedelta code duration python python-2.7 numpy pandas

python - csv的pandas DataFrame输出端

我想知道如何将新的DataFrame数据添加到现有csv文件的末尾？to_csv没有提到这样的功能。最佳答案您可以使用to_csv追加通过传递一个文件openinappendmode:withopen(file_name,'a')asf:df.to_csv(f,header=False)使用header=None，以免追加列名。事实上，pandas在to_csv中使用mode参数(seeJoe'sanswer)有一个包装器:df.to_csv(f,mode='a',header=False)

DataFrame python code section to_csv csv pandas

python - 将 Counter 对象转换为 Pandas DataFrame

我在列表中使用Counter来计算这个变量:final=Counter(event_container)打印最终给出:Counter({'fb_view_listing':76,'fb_homescreen':63,'rt_view_listing':50,'rt_home_start_app':46,'fb_view_wishlist':39,'fb_view_product':37,'fb_search':29,'rt_view_product':23,'fb_view_cart':22,'rt_search':12,'rt_view_cart':12,'add_to_cart':

DataFrame Counter 39 code view python pandas