草庐IT

Pandas-Datareader

全部标签

python - 使用 Pandas 将文本数据从请求对象转换为数据框

我正在使用请求创建一个.csv格式的对象。我怎样才能将该对象写入带有pandas的DataFrame?获取文本格式的请求对象:importrequestsimportpandasaspdurl=r'http://test.url'r=requests.get(url)r.text#thiswillreturnthedataastextincsvformat我试过了(没用):pd.read_csv(r.text)pd.DataFrame.from_csv(r.text) 最佳答案 试试这个importrequestsimportpan

python - 将 json 文件读取为 pandas 数据框?

我正在使用python3.6并尝试使用以下代码将json文件(350MB)下载为pandas数据帧。但是,我收到以下错误:data_json_str="["+",".join(data)+"]"TypeError:sequenceitem0:expectedstrinstance,bytesfound如何修复错误?importpandasaspd#readtheentirefileintoapythonarraywithopen('C:/Users/Alberto/nutrients.json','rb')asf:data=f.readlines()#removethetrailing

python - 将 Pandas 中的列索引重置为 0,1,2,3 ...?

如何将数据框列的索引重置为0、1、2、3、4?(为什么执行df.reset_index()不会重置列索引?)>>>data=data.drop(data.columns[[1,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19]],axis=1)>>>data=data.drop(data.index[[0,1]],axis=0)>>>print(data.head())0234202500292014600.00.00.00NaN3500292014600100.00.00.00NaN450029201460011202.00.00.00NaN>>>dat

【pandas小技巧】--统计值作为新列

这次介绍的小技巧不是统计,而是把统计结果作为新列和原来的数据放在一起。pandas的各种统计功能之前已经介绍了不少,但是每次都是统计结果归统计结果,原始数据归原始数据,没有把它们合并在一个数据集中来观察。下面通过两个场景示例来演示如果把统计值作为新列的数据。1.成绩统计的场景成绩统计及其类似的场景比较常见,也就是把每行统计的结果作为该行的一个新列。比如:importpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.randint(60,100,(4,3)))df.columns=["语文","数学","英语"]df.index=["学生"+s

python - pandas DataFrame 多列的并排箱线图

一年的样本数据:importpandasaspdimportnumpy.randomasrndimportseabornassnsn=365df=pd.DataFrame(data={"A":rnd.randn(n),"B":rnd.randn(n)+1},index=pd.date_range(start="2017-01-01",periods=n,freq="D"))我想按月份并排绘制这些数据的箱线图(即,每月两个箱子,一个用于A,一个用于B)。对于单列sns.boxplot(df.index.month,df["A"])工作正常。但是,sns.boxplot(df.index.

python - 关于 pandas.read_csv 的 float_precision 参数

documentation对于这篇文章标题中的论点,他说:float_precision:string,defaultNoneSpecifieswhichconvertertheCengineshoulduseforfloating-pointvalues.TheoptionsareNonefortheordinaryconverter,highforthehigh-precisionconverter,andround_tripfortheround-tripconverter.我想更多地了解所提到的三种算法,最好不要深入研究源代码1。问:这些算法是否有名称,我可以通过谷歌搜索来准确

python - dask 和 pandas 数据框中的嵌套 numpy 数组

在处理图像和音频的机器/深度学习代码中,一个常见的用例是加载和操作图像或音频片段的大型数据集。这些数据集中的条目几乎总是由图像/音频片段和元数据(例如类标签、训练/测试实例等)表示。例如,在我的语音识别具体用例中,数据集几乎总是由具有以下属性的条目组成:演讲者ID(字符串)成绩单(字符串)测试数据(bool)Wav数据(numpy数组)数据集名称(字符串)...在pandas和/或dask中表示此类数据集的推荐方法是什么-强调wav数据(在图像数据集中,这将是图像数据本身)?在Pandas中,带有fewtricks,可以在列中嵌套一个numpy数组,但这不能很好地序列化,也不能与das

python - Pandas 中的加权箱线图

对于下面的数据框(df),ColAColA_weightsColBColB_weights00.03867110731.8595991120.399745736210.595991210.2997458572.859599135.040000128833.39599141.04000010647.8595991我想画一个加权箱线图,其中每个箱子的权重分别由ColA_weights和ColB_weights给出,我只是这样做df.boxplot(fontsize=12,notch=0,whis=1.5,vert=1,widths=0.2)不过好像没有规定要包含权重。有什么解决办法吗?谢谢

python - groupby 上的 pandas concat 数组

我有一个DataFrame,它是由groupbywith创建的:agg_df=df.groupby(['X','Y','Z']).agg({'amount':np.sum,'ID':pd.Series.unique,})在我对agg_df应用一些过滤后,我想连接IDagg_df=agg_df.groupby(['X','Y']).agg({#Zisnotiningroupbynow'amount':np.sum,'ID':pd.Series.unique,})但我在第二个'ID':pd.Series.unique处遇到错误:ValueError:Functiondoesnotreduc

python - 从对象到字符串的 pandas dtype 转换

我有一个csv文件,其中有几列是数字,几列是字符串。当我尝试myDF.dtypes时,它将所有字符串列显示为object。here之前有人问过相关问题关于为什么这样做。是否可以将dtype从对象重铸为字符串?另外,一般来说,有什么简单的方法可以将dtype从int64和float64重铸为int32和float32并保存数据的大小(在内存中/磁盘上)? 最佳答案 所有字符串都表示为可变长度(这是objectdtype所持有的)。如果你愿意,你可以做series.astype('S32');但如果您随后将其存储在DataFrame中或