pyspark-dataframes

python - 高效地将值从一列替换为另一列 Pandas DataFrame

我有一个像这样的PandasDataFrame:col1col2col310.20.30.320.20.30.3300.40.44000.3500060.10.40.4仅当col1值等于0时，我想用第二列(col2)中的值替换col1值，之后(对于剩余的零值)，再次执行此操作，但使用第三列(col3)。期望的结果是下一个:col1col2col310.20.30.320.20.30.330.40.40.440.300.3500060.10.40.4我使用pd.replace函数完成了它，但它似乎太慢了。我认为必须有一种更快的方法来完成它。df.col1.replace(0,df.col

DataFrame python col 39 col1 pandas replace

python - pyspark错误does not exist in jvm error when initializing SparkContext

我在emr上使用spark并编写pyspark脚本，尝试时出现错误frompysparkimportSparkContextsc=SparkContext()这是错误File"pyex.py",line5,insc=SparkContext()File"/usr/local/lib/python3.4/site-packages/pyspark/context.py",line118,in__init__conf,jsc,profiler_cls)File"/usr/local/lib/python3.4/site-packages/pyspark/context.py",line19

SparkContext initializing section pyspark python python-3.x apache-spark amazon-emr

python - 用 "sign"数字填充 DataFrame

我有一个充满float(正数和负数)和一些NaN的DataFrame。我想用它的符号替换每个float:如果它是NaN->它仍然是Nan如果为正->替换为1如果为负->替换为-1如果为零->保留为0对进行这种大规模替换有什么建议吗？最佳答案您可以使用np.sign:dfOut[100]:A0-4.012.02NaN30.0importnumpyasnpnp.sign(df["A"])Out[101]:0-1.011.02NaN30.0Name:A,dtype:float64为了应用到所有列，可以直接传递dataframe:dfO

amp DataFrame 1.0 section code python pandas

python - 如何使用 tkinter 提示用户将 DataFrame 保存到 Excel 文件？

我是Python和一般编程的新手。我正在尝试为我编写的一些代码构建一个GUI，这些代码从Excel导入数据，进行一些分析，然后将新数据从DataFrame导出到另一个Excel文件。我以前使用过这段代码，但现在我需要一个提示，询问用户他们想将文件保存到哪里:writer=pd.ExcelWriter("Results.xlsx",engine="xlsxwriter")data.to_excel(writer,index=False,sheet_name="Results")worksheet=writer.sheets["Results"]writer.save()不幸的是，当我使用

DataFrame tkinter 34 self message python excel python-3.x user-interface

python - 使用第一列作为索引的 Excel 到 Pandas DataFrame

我在Excel中有一个非常简单的表格，我正在尝试将其读入DataFrame代码:frompandasimportDataFrame,Seriesimportpandasaspddf=pd.read_excel('params.xlsx',header=[0,1],index_col=None)这会产生以下DataFrame:我没想到param1.key会成为索引，尤其是在设置了index_col=None之后。有没有一种方法可以使用生成的索引而不是第一列的数据将数据放入DataFrame中？更新—以下是您尝试reset_index()解决问题时发生的情况:版本信息:python3.5.

DataFrame python section code pandas

python - PySpark:TypeError: 'Column' 对象不可调用

我正在从HDFS加载数据，我想按特定变量过滤这些数据。但不知何故Column.isin命令不起作用。它抛出这个错误:TypeError:'Column'objectisnotcallablefrompyspark.sql.functionsimportudf,colvariables=('852-PI-769','812-HC-037','852-PC-571-OUT')df=sqlContext.read.option("mergeSchema","true").parquet("parameters.parquet")same_var=col("Variable").isin(va

TypeError amp code section Column python apache-spark pyspark spark-dataframe

python - 如何在 PySpark shell session 中更新 pyfile？

在交互式pysparksession中，您可以通过sc.addPyFile('file_location')导入python文件。如果您需要对该文件进行更改并保存它们，是否有任何方法可以“重新广播”更新后的文件而无需关闭您的sparksession并启动一个新的session？简单地再次添加文件是行不通的。我不确定重命名文件是否有效，但无论如何我都不想这样做。据我从spark文档中得知，只有一种添加pyfile的方法，而不是更新pyfile的方法。我希望我错过了什么!谢谢最佳答案我认为在交互式session期间不可行。您将必须重

何在 PySpark section session pyfile python apache-spark

python - 基于 DataFrame 将参数传递给 stats.friedmanchisquare 的正确方法是什么？

我正在尝试将值从数据帧df传递到stats.friedmanchisquare，其形状为(11,17)。这就是对我有效的方法(在此示例中仅适用于三行):df=df.as_matrix()printstats.friedmanchisquare(df[1,:],df[2,:],df[3,:])产生(16.714285714285694,0.00023471398805908193)但是，当我想使用df的所有11行时，代码行太长了。首先，我尝试通过以下方式传递值:df=df.as_matrix()printstats.friedmanchisquare([df[x,:]forxinnp.a

friedmanchisquare DataFrame code stats python numpy pandas scipy

Python - 在 Pandas DataFrame 中取消嵌套单元格

假设我有DataFramedf:abcvf3|4|5v26vf4|5我想生成这个df:abcvf3vf4vf5v26vf4vf5我知道如何使用tidyr包在R中进行这种转换。在pandas中有没有一种简单的方法可以做到这一点？最佳答案你可以:importnumpyasnpdf=df.set_index(['a','b'])df=df.astype(str)+'|'#There'saspace''tomatchthereplacelaterdf=df.c.str.split('|',expand=True).stack().res

DataFrame Python code section 39 pandas reshape

python - 使用 pandas.DataFrame 设置值

拥有这个DataFrame:importpandasdates=pandas.date_range('2016-01-01',periods=5,freq='H')s=pandas.Series([0,1,2,3,4],index=dates)df=pandas.DataFrame([(1,2,s,8)],columns=['a','b','foo','bar'])df.set_index(['a','b'],inplace=True)df我想用一个简单的旧系列替换那里的系列，但重新采样到一天的时间段(即x.resample('D').sum().dropna())。当我尝试时:df[

DataFrame python 39 code pandas

33 34 353637 38 39