草庐IT

Pandas-Datareader

全部标签

「Python|Pandas|场景案例」如何只保留DataFrame数据集的某些列(要保留的列不固定)

本文主要介绍在使用pandas进行数据分析过程中的数据预处理时,如果希望仅保留某些列的数据需要如何操作。同时介绍一些特殊情况,比如列是用变量存储;或者列是一个全集,处理的数据集中不一定包括列出的全部列名。文章目录场景说明解决方案基本使用加入变量考虑数据集没有包含全部目标字段的情况场景说明在数据处理的时候,可能会遇到数据集包含的数据字段并不是全部会用到,甚至有些用不到的字段内容较多,在存储上会占用较多空间,在读取和使用上可能会影响性能,所以需要考虑丢弃用不到的字段,仅保留需要使用的字段。同时,我们可能遇到一些稍微复杂一点的场景,比如:你想写一套通用程序来处理不同数据集。这些数据集对应相同类型但是

json - 将具有相同列/索引的两个 pandas DataFrame 连接成一个 DataFrame

我正在尝试连接多个pandas.DataFrame以将其保存在一个集合中的mongodb中,所有数据帧都具有相同的索引/列,我想要使用to_json()方法将其保存在一个文档中。将数据框的所有单元格作为字典,这可能是一个好方法。为此,我想像这样连接数据帧:df1:indexAB1'A1''B1'2'A2''B2'3'A3''B3'df2:indexAB1'a1''b1'2'a2''b2'3'a3''b3'预期的解决方案:df_sol:indexAB1{d1:'A1',d2:'a1'}{d1:'B1',d2:'b1'}2{d1:'A2',d2:'a2'}{d1:'B2',d2:'b2'}

python - 从 MongoDB 获取嵌套数据到 Pandas 数据框

我正在将Twitter数据(推文+元数据)收集到MongoDB服务器中。现在我想做一些统计分析。为了将数据从MongoDB获取到Pandas数据框中,我使用了以下代码:cursor=collection.find({},{'id':1,'text':1})tweet_fields=['id','text']result=pd.DataFrame(list(cursor),columns=tweet_fields)通过这种方式,我成功地将数据加载到Pandas中,这太棒了。现在我想对创建推文的用户进行一些分析,这也是我收集的数据。此数据位于JSON的嵌套部分(我不能100%确定这是否是真

python - Pandas - 将数据框插入 MongoDB

我正在尝试将数据框插入MongoDB。每行应该是一个文档。frompymongoimportMongoClientimportpandasaspdclient=MongoClient()col=client['test']['test']d={'name':['Braund','Cummings','Heikkinen','Allen'],'age':[22,38,26,35],'fare':[7.25,71.83,0,8.05],'survived?':[False,True,True,False]}df=pd.DataFrame(d)col.insert_many(df)但是,上面

如何解决Pandas-Datareader的问题?

在解散熊猫datareader之后,我有一个问题:在此处输入图像说明有什么问题?看答案您没有pandas_datareader库。您需要通过PIP安装它。看到文档在这里pipinstallpandas-datareader

python - Pandas TimeSeries 到 MongoDB

我有一个通用的pandasTimeSeries,我想将其存储在MongoDB中。对象ts看起来像这样:>ts2013-01-0100:00:00456.8529852013-01-0101:00:00656.0155322013-01-0102:00:00893.159043...2013-12-3121:00:001116.5264712013-12-3122:00:001124.9036002013-12-3123:00:001065.315890Freq:H,Length:8760,dtype:float64我想将其转换为一组JSON文档,其中一个文档是一行,以将其存储在Mong

python - 使用 Pandas 数据框创建一个类(更新)

我正在尝试制作一个简单的类,它将数据存储为数据框并给出特定的结果。我试过写一个如下:importnumpyasnpimportpandasaspdclasslogdata():def__init__(self,size):self.size=sizeself.x=Noneself.timestamp=Noneself.confidence=100self.occurance=1defcreatedf(self):self.df=pd.DataFrame(data=None,columns=['Timestamp','Label','Occurance','Confidence'])re

python 计算均值、方差、标准差 Numpy,Pandas

Python中的numpy包和pandas包都能够计算均值、方差等,本文总结一下它们的用法。#1.Numpy计算均值、方差、标准差一般的均值可以用numpy中的mean方法求得: >>>importnumpyasnp >>>a=[5,6,16,9] >>>np.mean(a) 9.0 numpy中的average方法不仅能求得简单平均数,也可以求出加权平均数。average里面可以跟一个weights参数,里面是一个权数的数组,例如: >>>np.average(a) >>>9.0 >>>np.average(a,weights=[1,2,1,1]) >>>8.4 计算方差时,可以利用nump

阅读CSV的最后N列作为Pandas的列表

想象一下,您有一个日志文件,该文件指示了一些按空格分开的信息,从第三字段到最后一个字段,给定的信息是标识符列表。例如,表示结束每场比赛的F1车的ID号(给出了标题以解释示例):Number_of_raceWhatever_dataFrom_here_list_of__car_ids1211235781118(这意味着汽车2、3、5、7、8、11和18结束了比赛数字1的任何数据211)我可以知道任何行(2)的最小列数,也可以知道最大值(如果最后一辆汽车为#18,那么20是最大值)。在将文件读取为CSV时,我可以设置列名,因此最后18列将具有一些空值,然后以某种方式将18列组合为非零值的列表。但是

python - 从 MySQL 获取表到 Pandas 的最快方法

我正在尝试确定从MySQL获取数据到Pandas的最快方法。到目前为止,我已经尝试了三种不同的方法:方法1:使用pymysql并修改字段类型(灵感来自Fastestwaytoloadnumericdataintopython/pandas/numpyarrayfromMySQL)importpymysqlfrompymysql.convertersimportconversionsfrompymysql.constantsimportFIELD_TYPEconversions[FIELD_TYPE.DECIMAL]=floatconversions[FIELD_TYPE.NEWDECI