草庐IT

pyspark-dataframes

全部标签

python - 替换 pandas DataFrame 中的列值

我正在尝试替换数据框一列中的值。列('female')仅包含值'female'和'male'。我尝试了以下方法:w['female']['female']='1'w['female']['male']='0'但收到与之前结果完全相同的副本。理想情况下,我希望得到一些类似于以下循环元素的输出。ifw['female']=='female':w['female']='1';else:w['female']='0';我查看了问题文档(http://pandas.pydata.org/pandas-docs/stable/gotchas.html),但无法弄清楚为什么什么也没发生。任何帮助将不

python - 替换 pandas DataFrame 中的列值

我正在尝试替换数据框一列中的值。列('female')仅包含值'female'和'male'。我尝试了以下方法:w['female']['female']='1'w['female']['male']='0'但收到与之前结果完全相同的副本。理想情况下,我希望得到一些类似于以下循环元素的输出。ifw['female']=='female':w['female']='1';else:w['female']='0';我查看了问题文档(http://pandas.pydata.org/pandas-docs/stable/gotchas.html),但无法弄清楚为什么什么也没发生。任何帮助将不

python - 按日期过滤 Pandas DataFrame

我有一个带有“日期”列的PandasDataFrame。现在我需要过滤掉DataFrame中日期在接下来两个月之外的所有行。本质上,我只需要保留接下来两个月内的行。实现这一目标的最佳方法是什么? 最佳答案 如果日期列是索引,则使用.loc进行基于标签的索引或使用.iloc进行位置索引。例如:df.loc['2014-01-01':'2014-02-01']在此处查看详细信息http://pandas.pydata.org/pandas-docs/stable/dsintro.html#indexing-selection如果该列不是

python - 按日期过滤 Pandas DataFrame

我有一个带有“日期”列的PandasDataFrame。现在我需要过滤掉DataFrame中日期在接下来两个月之外的所有行。本质上,我只需要保留接下来两个月内的行。实现这一目标的最佳方法是什么? 最佳答案 如果日期列是索引,则使用.loc进行基于标签的索引或使用.iloc进行位置索引。例如:df.loc['2014-01-01':'2014-02-01']在此处查看详细信息http://pandas.pydata.org/pandas-docs/stable/dsintro.html#indexing-selection如果该列不是

python - 在 python shell 中导入 pyspark

这是另一个论坛上其他人的问题的副本,从未得到回答,所以我想我会在这里重新提问,因为我有同样的问题。(见http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736)我已经在我的机器上正确安装了Spark,并且在使用./bin/pyspark作为我的python解释器时,我能够使用pyspark模块运行python程序而不会出错。但是,当我尝试运行常规Pythonshell时,当我尝试导入pyspark模块时,我收到此错误:frompysparkimportSparkContext它说"Nomodulenamedpyspark".我

python - 在 python shell 中导入 pyspark

这是另一个论坛上其他人的问题的副本,从未得到回答,所以我想我会在这里重新提问,因为我有同样的问题。(见http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736)我已经在我的机器上正确安装了Spark,并且在使用./bin/pyspark作为我的python解释器时,我能够使用pyspark模块运行python程序而不会出错。但是,当我尝试运行常规Pythonshell时,当我尝试导入pyspark模块时,我收到此错误:frompysparkimportSparkContext它说"Nomodulenamedpyspark".我

python - 如何向 Spark DataFrame 添加新列(使用 PySpark)?

我有一个SparkDataFrame(使用PySpark1.5.1)并想添加一个新列。我尝试了以下方法但没有成功:type(randomed_hours)#=>list#CreateinPythonandtransformtoRDDnew_col=pd.DataFrame(randomed_hours,columns=['new_col'])spark_new_col=sqlContext.createDataFrame(new_col)my_df_spark.withColumn("hours",spark_new_col["new_col"])使用这个也有错误:my_df_spar

python - 如何向 Spark DataFrame 添加新列(使用 PySpark)?

我有一个SparkDataFrame(使用PySpark1.5.1)并想添加一个新列。我尝试了以下方法但没有成功:type(randomed_hours)#=>list#CreateinPythonandtransformtoRDDnew_col=pd.DataFrame(randomed_hours,columns=['new_col'])spark_new_col=sqlContext.createDataFrame(new_col)my_df_spark.withColumn("hours",spark_new_col["new_col"])使用这个也有错误:my_df_spar

python - 重命名 Pandas DataFrame 索引

我有一个没有标题的csv文件,带有一个DateTime索引。我想重命名索引和列名,但使用df.rename()仅重命名列名。漏洞?我使用的是0.12.0版In[2]:df=pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv',header=None,parse_dates=[[0]],index_col=[0])In[3]:df.head()Out[3]:102002-06-180.1120002002-06-220.1903332002-06-260.1340002002-06-300.0930002002-07-040.09

python - 重命名 Pandas DataFrame 索引

我有一个没有标题的csv文件,带有一个DateTime索引。我想重命名索引和列名,但使用df.rename()仅重命名列名。漏洞?我使用的是0.12.0版In[2]:df=pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv',header=None,parse_dates=[[0]],index_col=[0])In[3]:df.head()Out[3]:102002-06-180.1120002002-06-220.1903332002-06-260.1340002002-06-300.0930002002-07-040.09