草庐IT

pyhton_Pandas

全部标签

python - Pandas - 在数据框中的列中展开嵌套的 json 数组

我有一个json数据(来自mongodb),其中包含数千条记录(因此是一个json对象的数组/列表),每个对象的结构如下所示:{"id":1,"first_name":"Mead","last_name":"Lantaph","email":"mlantaph0@opensource.org","gender":"Male","ip_address":"231.126.209.31","nested_array_to_expand":[{"property":"Quaxo","json_obj":{"prop1":"Chevrolet","prop2":"MercyStreets"}}

python - pandas:规范化 DataFrame

我在扁平化文件中输入了数据。我想通过将这些数据拆分成表格来规范化这些数据。我可以用pandas巧妙地做到这一点吗-也就是说,通过将扁平化数据读入DataFrame实例,然后应用一些函数来获得生成的DataFrame实例?例子:数据以CSV文件的形式在磁盘上提供给我,如下所示:ItemIdClientIdPriceQuotedItemDescription1110scrollofSneak1212scrollofSneak1313scrollofSneak222500scrollofInvisible242200scrollofInvisible我想创建两个DataFrame:ItemI

python - 在 pandas 或 matplotlib 的一张图中绘制多个箱线图?

我有两个箱线图a1=a[['kCH4_sync','week_days']]a1.boxplot(by='week_days',meanline=True,showmeans=True,showcaps=True,showbox=True,showfliers=False)a2=a[['CH4_sync','week_days']]a2.boxplot(by='week_days',meanline=True,showmeans=True,showcaps=True,showbox=True,showfliers=False)但我想将它们放在一张图中进行比较。你对解决这个问题有什么建议

python - Pandas scatter_matrix - 绘制分类变量

我正在查看Kaggle竞赛中著名的泰坦尼克号数据集:http://www.kaggle.com/c/titanic-gettingStarted/data我已使用以下方式加载和处理数据:#importrequiredlibrariesimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinline#loadthedatafromthefiledf=pd.read_csv('./data/train.csv')#importthescatter_matrixfunctionalityfrompandas.tools.plottin

列数据中的python pandas read_csv定界符

我有这种类型的CSV文件:12012;MyNameisMike.Whatisyour's?;3;01522;Inmyopinion:It'scool;oratleastnotbad;4;021427;Hello.Ilikethisfeature!;5;1我想将此数据放入dapandas.DataFrame中。但是read_csv(sep=";")由于第2行中用户生成的消息列中的分号而引发异常(在我看来:这很酷;或者至少还不错)。所有剩余的列始终具有数字数据类型。管理这个最方便的方法是什么? 最佳答案 处理不带引号的定界符总是一件麻烦

python - Pandas TimeSeries 重采样产生 NaN

我正在对PandasTimeSeries进行重采样。时间序列由二进制值(它是一个分类变量)组成,没有缺失值,但在重新采样后出现NaN。这怎么可能?我不能在这里发布任何示例数据,因为它是敏感信息,但我按如下方式创建和重新采样该系列:series=pd.Series(data,ts)series_rs=series.resample('60T',how='mean') 最佳答案 upsampling转换为固定时间间隔,因此如果没有样本,您将得到NaN。您可以通过fill_method='bfill'或正向填充缺失值-fill_metho

python - 有条件地将 HDF5 文件读取到 pandas DataFrame

我有一个巨大的HDF5文件,我想将其中的一部分加载到pandasDataFrame中以执行一些操作,但我有兴趣过滤一些行。我可以用一个例子更好地解释:原始HDF5文件看起来像这样:ABCD10341120321531352241341551319103415212911303415411214503415103213213415etcetcetcetc我想做的是将它原封不动地加载到pandasDataframe,但只是whereA==1or3or4到目前为止,我可以使用以下方法加载整个HDF5:store=pd.HDFStore('Resutls2015_10_21.h5')df=pd

python - pandas 在 to_csv 中转义回车

我有一个字符串列,有时在字符串中有回车符:importpandasaspdfromioimportStringIOdatastring=StringIO("""\countrymetric20112012USAGDP74USAPop.23GBGDP87""")df=pd.read_table(datastring,sep='\s\s+')df.metric=df.metric+'\r'#appendcarriagereturnprint(df)countrymetric201120120USAGDP\r741USAPop.\r232GBGDP\r87写入和读取csv时,数据帧会损坏:d

python - Pandas 计算每个范围之间的值的数量

我想查找特定自定义范围内的数据计数。假设我有一些数据:importrandommy_randoms=random.sample(xrange(100),10)test=pd.DataFrame(my_randoms,columns=["x"])如何生成显示不同范围之间值数量的数据框?例如,假设我想查看0-19、20-39、40-59、60-79、80-100之间出现了多少个值。输出数据框将有一列包含这些范围,另一列包含计数。我可以想到一些丑陋的方法,涉及使用.apply来获取一个新的列列表,说明它们介于哪个值之间(然后执行groupby),但我怀疑pandas有更简洁的方法潜伏。

python - 在 Pandas 中单独打印一列的原始值?

我有一个数据框:df=pd.DataFrame([{'name':'george','age':23},{'name':'anna','age':26}])现在我想检索乔治的年龄:df[df.name=='george'].age但这会输出一些额外的信息以及原始值:023Name:age,dtype:int64我如何让它打印23? 最佳答案 您可以使用loc+values用于将Serie转换为numpyarray然后通过[0]选择第一个值:print(df.loc[df.name=='george','age'].values)[2