panda_link

python - Pandas 根据多个条件过滤行

我在risk列中有一些值既不是Small、Medium也不是High。我想删除值不是Small、Medium和High的行。我尝试了以下方法:df=df[(df.risk=="Small")|(df.risk=="Medium")|(df.risk=="High")]但这会返回一个空的DataFrame。如何正确过滤它们？最佳答案我想你想要:df=df[(df.risk.isin(["Small","Medium","High"]))]例子:In[5]:importpandasaspddf=pd.DataFrame({'risk

python - 在 pandas 的 groupby 中排名

我有一个典型的“面板数据”(在计量经济学术语中，不是pandas面板对象)。数据框有一个Date列和一个ID列，以及包含特定值的其他列。对于每个日期，我需要根据V1对ID进行横截面排名，分成10个组(十分位数)，并创建一个名为rank_col的新列(取值1到10)来确定排名。然后汇集所有rank1、rank2、...rank10跨时间获得一些统计数据，如平均值、标准差。这可以在SAS中通过以下代码轻松完成，它也说明了我的目的:procsortdata=df;byDate;procrankdata=dfout=df_rankedgroups=10;varV1;ranksrank_col;

排名 groupby 2013 code 01 python pandas group-by

python - Pandas DataFrame 对象继承还是对象使用？

我正在构建一个用于处理非常具体的结构化数据的库，并且我正在Pandas之上构建我的基础设施。目前我正在为不同的用例编写一堆不同的数据容器，例如用于国家x时间数据的CTMatrix等，以容纳适用于所有CountryxTime结构化数据的方法。我目前正在争论选项1:对象继承classCTMatrix(pd.DataFrame):methodsetc.here或选项2:对象使用classCTMatrix(object):_data=pd.DataFramethenusegetter,settermethodstocontrolaccessto_dataetc.从软件工程的角度来看，这里有明显

DataFrame python code strong section oop inheritance pandas

python - Pandas :连接数据框并保留重复索引

我有两个数据框，我想将它们按列(axis=1)与内部连接连接起来。其中一个数据框有一些重复的索引，但行不是重复的，我不想丢失那些数据:df1=pd.DataFrame([{'a':1,'b':2},{'a':1,'b':3},{'a':2,'b':4}],columns=['a','b']).set_index('a')df2=pd.DataFrame([{'a':1,'c':5},{'a':2,'c':6}],columns=['a','c']).set_index('a')>>>df1ba12132489>>>df2ca1526默认的concat行为是用NaN填充缺失值:>>>pd

python Pandas 39 code section concat

【pandas小技巧】--category类型补充

category类型在pandas基础系列中有一篇介绍数据类型的文章中已经介绍过。category类型并不是python中的类型，是pandas特有的类型。category类型的优势那篇文章已经介绍过，当时只是介绍了如何将某个列的数据转换成category类型，以及转换之后给程序性能上带来的好处。本篇将补充介绍深入使用category类型时，经常会遇到的两个问题。一个是category类型中各个值的顺序调整；另一个是按照数值的范围转换为category类型。1.catagory类型顺序当我们把一个列的数据转换为category类型时，category类型中各个值的默认顺序是按照字母顺序排列的。

category 补充 code amp 类型 Python

python - 更改 Pandas Dataframe 中的时间频率

我有一个如下所示的PandasDataFrame。dfABdate_time2014-07-0106:03:59.61400062.1250NaN2014-07-0106:03:59.69200062.2500NaN2014-07-0106:13:34.52400062.2500241.06252014-07-0106:13:34.60200062.2500241.50002014-07-0106:15:05.39900062.2500241.37502014-07-0106:15:05.39900062.2500241.25002014-07-0106:15:42.00400062.

Dataframe python 2014 NaN code pandas time-series time-frequency

python - 有条件地删除重复项 pandas python

有没有办法在大约10列和400,000行的pandas数据框中有条件地删除重复项(专门使用drop_duplicates)？也就是说，我想保留所有具有2列的行满足一个条件:如果日期(列)和存储(列)#的组合是唯一的，则保留行，否则删除。最佳答案使用drop_duplicates返回删除了重复行的数据框，可选择只考虑某些列让初始数据框像In[34]:dfOut[34]:Col1Col2Col30AB101AB202AC203CB204AB20如果您想从某些列'Col1','Col2'中获取独特的组合In[35]:df.drop_d

python pandas section Col code python-2.7 numpy dataframe

python - 将 pandas 表写入 impala

使用impyla模块，我已将impala查询的结果下载到pandas数据框中，完成分析，现在想将结果写回impala上的表，或者至少写回hdfs文件。但是，我找不到任何关于如何执行此操作的信息，甚至找不到如何通过ssh进入impalashell并从那里写入表的信息。我想做的事情:fromimpala.dbapiimportconnectfromimpala.utilimportas_pandas#connecttomyhostandportconn=connect(host='myhost',port=111)#createquerytosavetableaspandasdfcreat

python pandas impala section hadoop hdfs

python Pandas : Add column to grouped DataFrame with method chaining

首先让我说我是pandas的新手。我正在尝试在DataFrame中创建一个新列。我能够按照我的示例中所示执行此操作。但我想通过链接方法来做到这一点，所以我不必分配新变量。首先让我展示一下我想要实现的目标，以及到目前为止我做了什么:In[1]:importnumpyasnpfrompandasimportSeries,DataFrameimportpandasaspdIn[2]:np.random.seed(10)df=pd.DataFrame(np.random.randint(1,5,size=(10,3)),columns=list('ABC'))dfOut[2]:ABC22141

DataFrame chaining code pandas section python python-2.7

python - 不知道标题是否存在的 Pandas read_csv

我有一个包含已知列的输入文件，假设有两列Name和Sex。有时它有标题行Name,Sex，有时它没有:1.csv:Name,SexJohn,MLeslie,F2.csv:John,MLeslie,F事先知道列的身份，是否有一种很好的方法可以使用相同的read_csv命令处理这两种情况？基本上，我想指定names=['Name','Sex']，然后让它仅在header存在时推断header=0。我能想到的最好的是:1)在执行read_csv之前读取文件的第一行，并设置参数适当。2)只需执行df=pd.read_csv(input_file,names=['Name','Sex']),然后

read_csv 不知 code section python csv pandas

113 114 115116117 118 119