草庐IT

dataframe

全部标签

python - 构建 3D Pandas DataFrame

我在Pandas中构建3DDataFrame时遇到困难。我想要这样的东西ABCstartendstartendstartend...72042529010111212133456749454512其中A、B等是顶级描述符,start和end是子描述符。后面的数字是成对的,A、B等的对数不同。观察A有四个这样的对,B只有1个,C有3个。我不确定如何继续构建此DataFrame。修改this示例没有给我设计的输出:importnumpyasnpimportpandasaspdA=np.array(['one','one','two','two','three','three'])B=np.

python - 使用 Pandas 创建带 Series 的 DataFrame,导致内存错误

我正在使用Pandas库进行遥感时间序列分析。最终我想通过使用block大小将我的DataFrame保存到csv,但我遇到了一个小问题。我的代码生成了6个NumPy数组,我将它们转换为Pandas系列。这些系列中的每一个都包含很多项目>>>prcpSeries.shape(12626172,)我想将系列添加到PandasDataFrame(df)中,以便将它们逐block保存到csv文件中。d={'prcp':pd.Series(prcpSeries),'tmax':pd.Series(tmaxSeries),'tmin':pd.Series(tminSeries),'ndvi':pd

python - 使用 Pandas 创建带 Series 的 DataFrame,导致内存错误

我正在使用Pandas库进行遥感时间序列分析。最终我想通过使用block大小将我的DataFrame保存到csv,但我遇到了一个小问题。我的代码生成了6个NumPy数组,我将它们转换为Pandas系列。这些系列中的每一个都包含很多项目>>>prcpSeries.shape(12626172,)我想将系列添加到PandasDataFrame(df)中,以便将它们逐block保存到csv文件中。d={'prcp':pd.Series(prcpSeries),'tmax':pd.Series(tmaxSeries),'tmin':pd.Series(tminSeries),'ndvi':pd

python - df.head() 有时在 Pandas、Python 中不起作用

我是Python和Pandas库的初学者,我对DataFrame的一些基本功能感到困惑。我有一个Pandas数据框如下:>>>df.head()XYunixtime0652f5e69fcb31134668991062214002921134661472354221c9d02e4f14e11346862070161361044911346806384518420766411346723370096但是,在我执行了一些功能之后:defunixTodate(unix):day=dt.datetime.utcfromtimestamp(unix/1000).strftime('%Y-%m-%d

python - df.head() 有时在 Pandas、Python 中不起作用

我是Python和Pandas库的初学者,我对DataFrame的一些基本功能感到困惑。我有一个Pandas数据框如下:>>>df.head()XYunixtime0652f5e69fcb31134668991062214002921134661472354221c9d02e4f14e11346862070161361044911346806384518420766411346723370096但是,在我执行了一些功能之后:defunixTodate(unix):day=dt.datetime.utcfromtimestamp(unix/1000).strftime('%Y-%m-%d

python - pandas.DataFrame.from_dict 不使用 OrderedDict 保留顺序

我想将来自荷兰统计局(CBS)的ODataXML数据馈送导入我们的数据库。使用lxml和pandas我认为这应该是直截了当的。通过使用OrderDict,我想保留列的顺序以提高可读性,但不知何故我无法做到。fromcollectionsimportOrderedDictfromlxmlimportetreeimportrequestsimportpandasaspd#CBSURLsbase_url='http://opendata.cbs.nl/ODataFeed/odata'datasets=['/37296ned','/82245NED']feed=requests.get(bas

python - pandas.DataFrame.from_dict 不使用 OrderedDict 保留顺序

我想将来自荷兰统计局(CBS)的ODataXML数据馈送导入我们的数据库。使用lxml和pandas我认为这应该是直截了当的。通过使用OrderDict,我想保留列的顺序以提高可读性,但不知何故我无法做到。fromcollectionsimportOrderedDictfromlxmlimportetreeimportrequestsimportpandasaspd#CBSURLsbase_url='http://opendata.cbs.nl/ODataFeed/odata'datasets=['/37296ned','/82245NED']feed=requests.get(bas

python - 将一列从一个 DataFrame 复制到另一个会给出 NaN 值?

这个question已被问过很多次,它似乎对其他人有用,但是,当我从不同的DataFrame(df1和df2的长度相同)。df1datehourvar1a2017-05-0100:00:00456585b2017-05-0101:00:00899875c2017-05-0102:00:00569566d2017-05-0103:00:00458756e2017-05-0104:00:00231458f2017-05-0105:00:00986545df2MyVar1MyVar206169.7193383688.04536815861.1480073152.23870425797.053

python - 将一列从一个 DataFrame 复制到另一个会给出 NaN 值?

这个question已被问过很多次,它似乎对其他人有用,但是,当我从不同的DataFrame(df1和df2的长度相同)。df1datehourvar1a2017-05-0100:00:00456585b2017-05-0101:00:00899875c2017-05-0102:00:00569566d2017-05-0103:00:00458756e2017-05-0104:00:00231458f2017-05-0105:00:00986545df2MyVar1MyVar206169.7193383688.04536815861.1480073152.23870425797.053

python - 将 numpy.array 存储在 Pandas.DataFrame 的单元格中

我有一个数据框,我想在其中存储“原始”numpy.array:df['COL_ARRAY']=df.apply(lambdar:np.array(do_something_with_r),axis=1)但似乎pandas试图“解包”numpy.array。有解决方法吗?除了使用包装器(见下面的编辑)?我尝试reduce=False没有成功。编辑这行得通,但我必须使用'dummy'Data类来环绕数组,这不能令人满意并且不是很优雅。classData:def__init__(self,v):self.v=vmeas=pd.read_excel(DATA_FILE)meas['DATA']