pandas-datareader

python - 更改 Pandas Dataframe 中的时间频率

我有一个如下所示的PandasDataFrame。dfABdate_time2014-07-0106:03:59.61400062.1250NaN2014-07-0106:03:59.69200062.2500NaN2014-07-0106:13:34.52400062.2500241.06252014-07-0106:13:34.60200062.2500241.50002014-07-0106:15:05.39900062.2500241.37502014-07-0106:15:05.39900062.2500241.25002014-07-0106:15:42.00400062.

python - 有条件地删除重复项 pandas python

有没有办法在大约10列和400,000行的pandas数据框中有条件地删除重复项(专门使用drop_duplicates)？也就是说，我想保留所有具有2列的行满足一个条件:如果日期(列)和存储(列)#的组合是唯一的，则保留行，否则删除。最佳答案使用drop_duplicates返回删除了重复行的数据框，可选择只考虑某些列让初始数据框像In[34]:dfOut[34]:Col1Col2Col30AB101AB202AC203CB204AB20如果您想从某些列'Col1','Col2'中获取独特的组合In[35]:df.drop_d

python pandas section Col code python-2.7 numpy dataframe

python - 如何使用 Python 下载股票价格数据？

我已经安装了pandas-datareader但我想知道是否有其他选择。到目前为止，我正在使用这个:importpandas_datareader.dataaswebstart_date='2018-01-01'end_date='2018-06-08'panel_data=web.DataReader('SPY','yahoo',start_date,end_date) 最佳答案 YahooFinance是获取股票数据的免费来源之一。您可以使用pandasdatareader获取数据，也可以使用yfinance库获取数据。从yfi

python section code quandl pandas stock pandas-datareader

python - 将 pandas 表写入 impala

使用impyla模块，我已将impala查询的结果下载到pandas数据框中，完成分析，现在想将结果写回impala上的表，或者至少写回hdfs文件。但是，我找不到任何关于如何执行此操作的信息，甚至找不到如何通过ssh进入impalashell并从那里写入表的信息。我想做的事情:fromimpala.dbapiimportconnectfromimpala.utilimportas_pandas#connecttomyhostandportconn=connect(host='myhost',port=111)#createquerytosavetableaspandasdfcreat

python pandas impala section hadoop hdfs

python Pandas : Add column to grouped DataFrame with method chaining

首先让我说我是pandas的新手。我正在尝试在DataFrame中创建一个新列。我能够按照我的示例中所示执行此操作。但我想通过链接方法来做到这一点，所以我不必分配新变量。首先让我展示一下我想要实现的目标，以及到目前为止我做了什么:In[1]:importnumpyasnpfrompandasimportSeries,DataFrameimportpandasaspdIn[2]:np.random.seed(10)df=pd.DataFrame(np.random.randint(1,5,size=(10,3)),columns=list('ABC'))dfOut[2]:ABC22141

DataFrame chaining code pandas section python python-2.7

python - 不知道标题是否存在的 Pandas read_csv

我有一个包含已知列的输入文件，假设有两列Name和Sex。有时它有标题行Name,Sex，有时它没有:1.csv:Name,SexJohn,MLeslie,F2.csv:John,MLeslie,F事先知道列的身份，是否有一种很好的方法可以使用相同的read_csv命令处理这两种情况？基本上，我想指定names=['Name','Sex']，然后让它仅在header存在时推断header=0。我能想到的最好的是:1)在执行read_csv之前读取文件的第一行，并设置参数适当。2)只需执行df=pd.read_csv(input_file,names=['Name','Sex']),然后

read_csv 不知 code section python csv pandas

python - Pandas 弹出最后一排

有没有办法像python原生列表的pop方法一样获取和删除最后一行？我知道我可以像下面那样做。我只想让它成为一行。df.ix[df.index[-1]]df=df[:-1] 最佳答案假设示例数据框:In[51]:dfOut[51]:ab015126237348你可以使用df.drop:In[52]:df,last_row=df.drop(df.tail(1).index),df.tail(1)In[53]:dfOut[53]:01015126237In[54]:last_rowOut[54]:ab348或使用numpy作为np:d

python Pandas code section df

python - 我们可以在 pandas.core.groupby.SeriesGroupBy 对象中看到组数据吗

我们可以检查pandas.core.groupby.SeriesGroupBy对象中的数据吗？最佳答案第一个选项:遍历所有组。forname,groupindf.groupby(column):print(name)print(group)print('\n')第二个选项:如果您想查看特定值的组，请使用get_group方法。df.groupby(column).get_group(name) 关于python-我们可以在pandas.core.groupby.SeriesGroup

中看 SeriesGroupBy section code strong python pandas

python - 在 Pandas 中就地合并两个数据框

如何在pandas中就地合并两个数据框？例如，假设我们有这两个数据框:importpandasaspds1=pd.DataFrame({'time':[1234567000,1234567005,1234567009],'X1':[96.32,96.01,96.05]},columns=['time','X1'])#tokeepcolumnsorders2=pd.DataFrame({'time':[1234567001,1234567005],'X2':[23.88,23.96]},columns=['time','X2'])#tokeepcolumnsorder它们可以与panda

就地 python pandas merge section dataframe outer-join

Python Pandas read_excel dtype str 在读取或通过 to_csv 写入时用空白 ('' 替换 nan

Python版本:Python2.7.13::Anaconda自定义(64位)Pandas版本:Pandas0.20.2你好，我有一个非常简单的要求。我想读取一个excel文件并将特定工作表写入csv文件。写入csv文件时，应将源Excel文件中的空白值视为/写入空白。但是，我的空白记录总是以“nan”形式写入输出文件。(没有引号)我通过方法读取了Excel文件read_excel(xlsx,sheetname='sheet1',dtype=str)我指定dtype是因为我有一些列是数字但应该被视为字符串。(否则他们可能会丢失前导0等)即我想从每个单元格中读取确切的值。现在我通过to_

入时 read_excel code 39 section python excel csv pandas nan

66 67 686970 71 72