草庐IT

dataframe

全部标签

python - 将 numpy.array 存储在 Pandas.DataFrame 的单元格中

我有一个数据框,我想在其中存储“原始”numpy.array:df['COL_ARRAY']=df.apply(lambdar:np.array(do_something_with_r),axis=1)但似乎pandas试图“解包”numpy.array。有解决方法吗?除了使用包装器(见下面的编辑)?我尝试reduce=False没有成功。编辑这行得通,但我必须使用'dummy'Data类来环绕数组,这不能令人满意并且不是很优雅。classData:def__init__(self,v):self.v=vmeas=pd.read_excel(DATA_FILE)meas['DATA']

python - Pandas DataFrame.to_csv 引发 IOError : No such file or directory

嗨:我正在尝试使用PandasDataFrame.to_csv方法将dataframe保存到csv文件:filename='./dir/name.csv'df.to_csv(filename)但是我得到了错误:IOError:[Errno2]Nosuchfileordirectory:'./dir/name.csv'如果文件不存在,to_csv方法是否应该能够创建文件?这就是我打算让它做的事情。 最佳答案 to_csv如您所说,如果文件不存在,则确实会创建该文件,但不会创建不存在的目录。确保首先创建了您尝试保存文件的子目录。我在工作

python - Pandas DataFrame.to_csv 引发 IOError : No such file or directory

嗨:我正在尝试使用PandasDataFrame.to_csv方法将dataframe保存到csv文件:filename='./dir/name.csv'df.to_csv(filename)但是我得到了错误:IOError:[Errno2]Nosuchfileordirectory:'./dir/name.csv'如果文件不存在,to_csv方法是否应该能够创建文件?这就是我打算让它做的事情。 最佳答案 to_csv如您所说,如果文件不存在,则确实会创建该文件,但不会创建不存在的目录。确保首先创建了您尝试保存文件的子目录。我在工作

python - Spark DataFrame TimestampType - 如何从字段中获取年、月、日值?

我有带有take(5)顶行的SparkDataFrame,如下所示:[Row(date=datetime.datetime(1984,1,1,0,0),hour=1,value=638.55),Row(date=datetime.datetime(1984,1,1,0,0),hour=2,value=638.55),Row(date=datetime.datetime(1984,1,1,0,0),hour=3,value=638.55),Row(date=datetime.datetime(1984,1,1,0,0),hour=4,value=638.55),Row(date=date

python - Spark DataFrame TimestampType - 如何从字段中获取年、月、日值?

我有带有take(5)顶行的SparkDataFrame,如下所示:[Row(date=datetime.datetime(1984,1,1,0,0),hour=1,value=638.55),Row(date=datetime.datetime(1984,1,1,0,0),hour=2,value=638.55),Row(date=datetime.datetime(1984,1,1,0,0),hour=3,value=638.55),Row(date=datetime.datetime(1984,1,1,0,0),hour=4,value=638.55),Row(date=date

python - pandas DataFrame 对角线

什么是获取正方形DataFrame的对角线的有效方法。我希望结果是一个Series和一个MultiIndex有两个级别,第一个是DataFrame的索引,第二个级别是DataFrame的列。设置importpandasaspdimportnumpyasnpnp.random.seed([3,1415])df=pd.DataFrame(np.random.rand(3,3)*5,columns=list('abc'),index=list('ABC'),dtype=np.int64)我想看看这个:printdf.stack().loc[[('A','a'),('B','b'),('C',

python - pandas DataFrame 对角线

什么是获取正方形DataFrame的对角线的有效方法。我希望结果是一个Series和一个MultiIndex有两个级别,第一个是DataFrame的索引,第二个级别是DataFrame的列。设置importpandasaspdimportnumpyasnpnp.random.seed([3,1415])df=pd.DataFrame(np.random.rand(3,3)*5,columns=list('abc'),index=list('ABC'),dtype=np.int64)我想看看这个:printdf.stack().loc[[('A','a'),('B','b'),('C',

python - 将大型 DataFrame 输出到 CSV 文件的最快方法是什么?

对于python/pandas,我发现df.to_csv(fname)以每分钟约100万行的速度工作。我有时可以像这样将性能提高7倍:defdf2csv(df,fname,myformats=[],sep=','):"""#functionisfasterthanto_csv#7timesfasterfornumbersifformatsarespecified,#2timesfasterforstrings.#Note-becareful.Itdoesn'taddquotesanddoesn'tcheck#forquotesorseparatorsinsideelements#We'

python - 将大型 DataFrame 输出到 CSV 文件的最快方法是什么?

对于python/pandas,我发现df.to_csv(fname)以每分钟约100万行的速度工作。我有时可以像这样将性能提高7倍:defdf2csv(df,fname,myformats=[],sep=','):"""#functionisfasterthanto_csv#7timesfasterfornumbersifformatsarespecified,#2timesfasterforstrings.#Note-becareful.Itdoesn'taddquotesanddoesn'tcheck#forquotesorseparatorsinsideelements#We'

python - 根据条件将 Pandas DataFrame 列从 String 转换为 Int

我有一个看起来像的数据框dfviza1_counta1_meana1_stdn320.816497y0NaNNaNn25150.000000我想根据条件将“viz”列转换为0和1。我试过了:df['viz']=0ifdf['viz']=="n"else1但我明白了:ValueError:ThetruthvalueofaSeriesisambiguous.Usea.empty,a.bool(),a.item(),a.any()ora.all(). 最佳答案 您正在尝试将标量与引发您看到的ValueError的整个系列进行比较。一个简单