草庐IT

sample_dataframe

全部标签

python - 如何将 tsv 文件加载到 Pandas DataFrame 中?

我是python和pandas的新手。我正在尝试将tsv文件加载到pandasDataFrame中。这是我正在尝试的,我得到的错误:>>>df1=DataFrame(csv.reader(open('c:/~/trainSetRel3.txt'),delimiter='\t'))Traceback(mostrecentcalllast):File"",line1,indf1=DataFrame(csv.reader(open('c:/~/trainSetRel3.txt'),delimiter='\t'))File"C:\Python27\lib\site-packages\panda

python - 如何创建两个 Pandas DataFrame 列的字典

组织以下Pandas数据框的最有效方法是什么:数据=PositionLetter1a2b3c4d5e进入像alphabet[1:'a',2:'b',3:'c',4:'d',5:'e']这样的字典? 最佳答案 In[9]:pd.Series(df.Letter.values,index=df.Position).to_dict()Out[9]:{1:'a',2:'b',3:'c',4:'d',5:'e'}速度比较(使用Wouter方法)In[6]:df=pd.DataFrame(randint(0,10,10000).reshape(

python - 如何创建两个 Pandas DataFrame 列的字典

组织以下Pandas数据框的最有效方法是什么:数据=PositionLetter1a2b3c4d5e进入像alphabet[1:'a',2:'b',3:'c',4:'d',5:'e']这样的字典? 最佳答案 In[9]:pd.Series(df.Letter.values,index=df.Position).to_dict()Out[9]:{1:'a',2:'b',3:'c',4:'d',5:'e'}速度比较(使用Wouter方法)In[6]:df=pd.DataFrame(randint(0,10,10000).reshape(

python - 如何估计 Pandas 的 DataFrame 需要多少内存?

我一直在想...如果我正在将一个400MB的csv文件读入pandas数据帧(使用read_csv或read_table),有没有办法猜测这需要多少内存?只是想更好地了解数据帧和内存... 最佳答案 df.memory_usage()将返回每列占用多少字节:>>>df.memory_usage()Row_ID20906600Household_ID20906600Vehicle20906600Calendar_Year20906600Model_Year20906600...要包含索引,请传递index=True。所以要获得整体内存

python - 如何估计 Pandas 的 DataFrame 需要多少内存?

我一直在想...如果我正在将一个400MB的csv文件读入pandas数据帧(使用read_csv或read_table),有没有办法猜测这需要多少内存?只是想更好地了解数据帧和内存... 最佳答案 df.memory_usage()将返回每列占用多少字节:>>>df.memory_usage()Row_ID20906600Household_ID20906600Vehicle20906600Calendar_Year20906600Model_Year20906600...要包含索引,请传递index=True。所以要获得整体内存

python - 替换 pandas DataFrame 中的列值

我正在尝试替换数据框一列中的值。列('female')仅包含值'female'和'male'。我尝试了以下方法:w['female']['female']='1'w['female']['male']='0'但收到与之前结果完全相同的副本。理想情况下,我希望得到一些类似于以下循环元素的输出。ifw['female']=='female':w['female']='1';else:w['female']='0';我查看了问题文档(http://pandas.pydata.org/pandas-docs/stable/gotchas.html),但无法弄清楚为什么什么也没发生。任何帮助将不

python - 替换 pandas DataFrame 中的列值

我正在尝试替换数据框一列中的值。列('female')仅包含值'female'和'male'。我尝试了以下方法:w['female']['female']='1'w['female']['male']='0'但收到与之前结果完全相同的副本。理想情况下,我希望得到一些类似于以下循环元素的输出。ifw['female']=='female':w['female']='1';else:w['female']='0';我查看了问题文档(http://pandas.pydata.org/pandas-docs/stable/gotchas.html),但无法弄清楚为什么什么也没发生。任何帮助将不

python - 按日期过滤 Pandas DataFrame

我有一个带有“日期”列的PandasDataFrame。现在我需要过滤掉DataFrame中日期在接下来两个月之外的所有行。本质上,我只需要保留接下来两个月内的行。实现这一目标的最佳方法是什么? 最佳答案 如果日期列是索引,则使用.loc进行基于标签的索引或使用.iloc进行位置索引。例如:df.loc['2014-01-01':'2014-02-01']在此处查看详细信息http://pandas.pydata.org/pandas-docs/stable/dsintro.html#indexing-selection如果该列不是

python - 按日期过滤 Pandas DataFrame

我有一个带有“日期”列的PandasDataFrame。现在我需要过滤掉DataFrame中日期在接下来两个月之外的所有行。本质上,我只需要保留接下来两个月内的行。实现这一目标的最佳方法是什么? 最佳答案 如果日期列是索引,则使用.loc进行基于标签的索引或使用.iloc进行位置索引。例如:df.loc['2014-01-01':'2014-02-01']在此处查看详细信息http://pandas.pydata.org/pandas-docs/stable/dsintro.html#indexing-selection如果该列不是

python - 如何向 Spark DataFrame 添加新列(使用 PySpark)?

我有一个SparkDataFrame(使用PySpark1.5.1)并想添加一个新列。我尝试了以下方法但没有成功:type(randomed_hours)#=>list#CreateinPythonandtransformtoRDDnew_col=pd.DataFrame(randomed_hours,columns=['new_col'])spark_new_col=sqlContext.createDataFrame(new_col)my_df_spark.withColumn("hours",spark_new_col["new_col"])使用这个也有错误:my_df_spar