pandas-datareader

python - 将 JSON 列快速转换为 Pandas 数据框

我正在从数据库(超过50k行)读取数据，其中一列存储为JSON。我想将其提取到Pandas数据框中。下面的代码片段工作正常但效率相当低，并且在针对整个数据库运行时确实需要很长时间。请注意，并非所有项目都具有相同的属性，并且JSON具有一些嵌套属性。我怎样才能让它更快？importpandasaspdimportjsondf=pd.read_csv('http://pastebin.com/raw/7L86m9R2',\header=None,index_col=0,names=['data'])df.data.apply(json.loads)\.apply(pd.io.json.js

python pandas.Series.isin 不区分大小写

我想用数据在列表中的DataFrame的列之一过滤掉一些行。df[df['column'].isin(mylist)]但是我发现它是区分大小写的。有没有使用不区分大小写的“.isin()”的方法？最佳答案一种方法是比较系列的小写或大写与列表的相同df[df['column'].str.lower().isin([x.lower()forxinmylist])]这里的优点是我们不保存对原始df或列表的任何更改，从而使操作更加高效考虑这个虚拟df:ColorVal0Green11Green12Red23Red24Blue35Blue

python pandas code section pre series

python - pandas 使用查询函数检查列是否为空

我有pandas数据框，我想在其上执行带有isnull()或非isnull()条件的查询函数:In[67]:df_data=pd.DataFrame({'a':[1,20,None,40,50]})In[68]:df_dataOut[68]:a01.0120.02NaN340.0450.0如果我使用这个命令:df_data.query('aisnull',engine='python')或者这个命令:df_data.query('aisnull()',engine='python')我得到一个错误:In[75]:df_data.query('aisnull',engine='pytho

python pandas code 39 df_data dataframe null

python - Pandas 的 EMA 与股票的 EMA 不匹配？

我正在尝试使用Python(与Pandas)计算英特尔(INTC)每日股票数据的20天指数移动平均线(EMA)。Pandas有多种方法可以做到这一点，我也尝试过在Pandas上运行的stockstats，但它们永远不会返回与我从股票/金融网站获得的相同的EMA。我仔细检查了收盘价，它们是匹配的，但EMA总是“错误”。这是我使用的CSV:INTCStockData它包含英特尔股票(股票代码:INTC)从2016年4月20日到2018年2月1日的每日日期、月份名称、开盘价、最高价、最低价、收盘价、日均价和成交量。当我查看像MarketWatch这样的大型股票网站时或Fidelity，他们的

EMA python code section 39 python-3.x pandas finance stockquotes

python - 如何将 LabelEncoder 应用于 Pandas 数据框中的特定列

我有一个由dataframe加载的数据集，其中类标签需要使用来自scikit-learn的LabelEncoder进行编码。label列是具有以下类的类标签列:[‘Standing’,‘Walking’,‘Running’,‘null’]为了执行标签编码，我尝试了以下但它不起作用。我该如何解决？fromsklearnimportpreprocessingimportpandasaspddf=pd.read_csv('dataset.csv',sep=',')df.apply(preprocessing.LabelEncoder().fit_transform(df['label']))

LabelEncoder python code section label python-3.x machine-learning scikit-learn label-encoding

python - Pandas :将不同的功能应用于不同的列

当使用df.mean()时，我得到一个结果，其中给出了每列的平均值。现在假设我想要第一列的平均值，以及第二列的总和。有没有办法做到这一点？我不想拆卸和重新组装DataFrame。我最初的想法是按照pandas.groupby.agg()的思路做一些事情，如下所示:df=pd.DataFrame(np.random.random((10,2)),columns=['A','B'])df.apply({'A':np.mean,'B':np.sum},axis=0)Traceback(mostrecentcalllast):File"",line1,indf.apply({'A':np.me

python Pandas code 39 section aggregate

python - 在 pandas/python 中，读取存储为字符串的数组

我有一个pandas数据框，其中一列的每个元素都有字符串数组。所以像这样。col1col20120['abc','def']1130['ghi','klm']现在，当我使用to_csv将其存储到csv时，它看起来很好。当我使用from_csv读回它时，我似乎读回了。但是当我分析每个单元格中的值时，数组是'['''''a''b''c'等等。所以本质上它不是将它作为一个数组而是一组字符串来读取。有人可以建议我如何将此字符串转换为数组吗？我的意思是说数组已经像字符串一样存储了'[\'abc\',\'def\']' 最佳答案如其他问题中所

python pandas 39 section code arrays csv dataframe

python - 如何使用名称列表更改 pandas Dataframe 中的列名称？

我一直在尝试使用名称列表更改pandas数据框的列名称。正在使用以下代码:df.rename(columns=list_of_names,inplace=True)但是我每次都遇到类型错误，错误消息是“listobjectisnotcallable”。我想知道为什么会这样？我该怎么做才能解决这个问题？感谢您的帮助。最佳答案你可以用df.columns=['Leader','Time','Score'] 关于python-如何使用名称列表更改pandasDataframe中的列名称？，

列名 Dataframe section strong python pandas numpy

python - 将 statsmodels 摘要对象转换为 Pandas Dataframe

我正在Windows10上使用statsmodels.formula.api(ver0.9.0)进行多元线性回归。拟合模型并使用以下行获取摘要后，我得到摘要对象格式的摘要.X_opt=X[:,[0,1,2,3]]regressor_OLS=sm.OLS(endog=y,exog=X_opt).fit()regressor_OLS.summary()OLSRegressionResults==============================================================================Dep.Variable:yR-squared

statsmodels Dataframe section results python pandas

python - pandas dataframe group year index by decade

假设我有一个索引为每月时间步长的数据框，我知道我可以使用dataframe.groupby(lambdax:x.year)将每月数据分组为每年并应用其他操作。有什么方法可以快速对它们进行分组，比方说按十年分组？感谢任何提示。最佳答案要得到十年，您可以将年份除以10，然后乘以10。例如，如果您从>>>dates=pd.date_range('1/1/2001',periods=500,freq="M")>>>df=pd.DataFrame({"A":5*np.arange(len(dates))+2},index=dates)>>

dataframe python code section gt pandas

77 78 798081 82 83