草庐IT

Pandas-Datareader

全部标签

python - 在 python pandas 中读取缺失值的文件

我尝试使用pandas.read_csv读取带有缺失值的.txt。我的数据是以下格式:10/08/2012,12:10:10,name1,0.81,4.02,50;18.5701400N,4;07.7693770E,7.92,10.50,0.0106,4.30,0.030110/08/2012,12:10:11,name2,,,,,10.87,1.40,0.0099,9.70,0.0686具有数千个具有相同点名、GPS位置和其他读数的样本。我使用一个代码:myData=read_csv('~/data.txt',sep=',',na_values='')代码是错误的,因为na_valu

python - 结合 Pandas 中的两个时间序列

如果这明显记录在某处,我深表歉意,但我很难发现它。我有两个具有一些重叠日期/索引的TimeSeries,我想合并它们。我假设我必须指定从两个系列中的哪一个系列中获取重叠日期的值。为了说明,我有:s1:2008-09-151002008-10-15101s2:2008-10-15101.012008-11-15102.02我想要:s3:2008-09-151002008-10-151012008-11-15102.02或s3:2008-09-151002008-10-15101.012008-11-15102.02 最佳答案 这可以通

python - Pandas 数据框 : Check if data is monotonically decreasing

我有一个像这样的Pandas数据框:BalanceJanFebMarApr09.7241350.3893760.4644510.2299640.69150411.1147820.8384060.6790960.1851350.14388327.6139460.9608760.2202740.7882650.60640230.1445170.8000860.2878740.2235390.20600241.3328380.4308120.9394020.0452620.388466我想通过确定从一月到四月的值是否单调递减(如索引为1和3的行)来对行进行分组,然后将每组的余额相加,即最后我

python - 从 pandas.Series 中选择局部最小值和最大值

有一个scipy.signal.argrelextrema与ndarray一起使用的函数,但是当我尝试在pandas.Series上使用它时,它返回错误。将它与pandas一起使用的正确方法是什么?importnumpyasnpimportpandasaspdfromscipy.signalimportargrelextremas=pd.Series(randn(10),range(10))sargrelextrema(s,np.greater)-----------------------------------------------------------------------

python - 在 Python Pandas read_csv 中使用多字符定界符

pandasread_csv函数似乎只允许使用单个字符分隔符/分隔符。有没有什么方法允许使用像“*|*”或“%%”这样的字符串? 最佳答案 Pandas现在做supportmulticharacterdelimitersimportpandaaspdpd.read_csv(csv_file,sep="\*\|\*") 关于python-在PythonPandasread_csv中使用多字符定界符,我们在StackOverflow上找到一个类似的问题: http

python - Pandas Dataframe 比较和浮点精度

我正在比较两个应该相同的数据帧。但是由于浮点精度,我被告知这些值不匹配。我在下面创建了一个示例来模拟它。我怎样才能得到正确的结果,以便最终比较数据框对两个单元格都返回true?a=pd.DataFrame({'A':[100,97.35000000001]})b=pd.DataFrame({'A':[100,97.34999999999]})printaA0100.00197.35printbA0100.00197.35print(a==b)A0True1False 最佳答案 好的,您可以使用np.isclose为此:In[250]

python - 将 Pandas Dataframe 单元格中的嵌套数组值拆分为多行

我有一个PandasDataFrame以下形式每年(2008年-2015年)每个ID一行。对于MaxTemp、MinTemp和Rain列,每个单元格都包含一个值数组,对应于当年的某一天,即上面的框架frame3.iloc[0]['MaxTemp'][0]是2011年1月1日的值frame3.iloc[0]['MaxTemp'][364]是2011年12月31日的值。我知道这是错误的结构,但这是我必须处理的数据。它以这种方式存储在MongoDB中(其中这些行之一相当于Mongo中的文档)。我想拆分这些嵌套数组,这样我就不会每年每个ID一行,而是每天每个ID一行。但是,在拆分数组时,我还想

python - 如何使用带有 gzip 压缩选项的 pandas read_csv 读取 tar.gz 文件?

我有一个非常简单的csv,包含以下数据,压缩在tar.gz文件中。我需要使用pandas.read_csv在数据框中读取它。AB014125236importpandasaspdpd.read_csv("sample.tar.gz",compression='gzip')但是,我收到错误:CParserError:Errortokenizingdata.Cerror:Expected1fieldsinline440,saw2以下是一组read_csv命令和我遇到的不同错误:pd.read_csv("sample.tar.gz",compression='gzip',engine='py

python - 将 model.predict() 的结果与原始 pandas DataFrame 合并?

我正在尝试将predict方法的结果与pandas.DataFrame对象中的原始数据合并。fromsklearn.datasetsimportload_irisfromsklearn.cross_validationimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifierimportpandasaspdimportnumpyasnpdata=load_iris()#bearwithmeforthenextfewsteps...I'mtryingtowalkyouthrough#howmydataobjectl

python - 将 pandas.core.series.Series 转换为具有适当列值的数据框 python

我正在运行一个变量为pandas.core.series.Series类型的函数。typeoftheseriesshownbelow.product_id_y1159730count1Name:6159402,dtype:object我想把它转换成一个数据框,这样,我得到product_id_ycount11597301我试过这样做:series1=series1.to_frame()结果不对转换为dataframe之后6159402product_id_y1159730count1在重置索引后,我series1=series1.reset_index()index61594020pr