草庐IT

Indexing

全部标签

Python Pandas : Boolean indexing on multiple columns

这个问题在这里已经有了答案:selectingacrossmultiplecolumnswithpandas(3个回答)关闭9年前。尽管至少有twogood关于如何在Python的pandas库中索引DataFrame的教程,我仍然无法找到一种优雅的方式来对多个列进行SELECTing。>>>d=pd.DataFrame({'x':[1,2,3,4,5],'y':[4,5,6,7,8]})>>>dxy014125236347458>>>d[d['x']>2]#Thisworksfinexy236347458>>>d[d['x']>2&d['y']>7]#Ihadexpectedthis

python - Pandas - 计算所有列的 z 分数

我有一个包含单列ID的数据框,所有其他列都是我想要计算z分数的数值。这是它的一个小节:IDAgeBMIRiskFactorPT64819.34PT84320.9NaNPT23918.13PT94119.5NaN我的一些列包含NaN值,我不想将其包含在z分数计算中,因此我打算使用为这个问题提供的解决方案:howtozscorenormalizepandascolumnwithnans?df['zscore']=(df.a-df.a.mean())/df.a.std(ddof=0)我有兴趣将此解决方案应用于除ID列之外的所有列,以生成一个新数据框,我可以使用该数据框将其保存为Excel文件

python - Pandas - 计算所有列的 z 分数

我有一个包含单列ID的数据框,所有其他列都是我想要计算z分数的数值。这是它的一个小节:IDAgeBMIRiskFactorPT64819.34PT84320.9NaNPT23918.13PT94119.5NaN我的一些列包含NaN值,我不想将其包含在z分数计算中,因此我打算使用为这个问题提供的解决方案:howtozscorenormalizepandascolumnwithnans?df['zscore']=(df.a-df.a.mean())/df.a.std(ddof=0)我有兴趣将此解决方案应用于除ID列之外的所有列,以生成一个新数据框,我可以使用该数据框将其保存为Excel文件

python - Cython:(为什么/何时)最好使用 Py_ssize_t 进行索引?

这是thisquestion的后续事件.(为什么/何时)最好使用Py_ssize_t进行索引?在docs我刚刚发现#Puristscoulduse"Py_ssize_t"whichistheproperPythontypefor#arrayindices.->这是否意味着在索引NumPy/Cython时总是-数组/View应该使用Py_ssize_t?->是Py_ssize_te.G。一个unsignedint以便我不能使用@cython.boundscheck(False) 最佳答案 Py_ssize_t已签名。见PEP353,其

python - Cython:(为什么/何时)最好使用 Py_ssize_t 进行索引?

这是thisquestion的后续事件.(为什么/何时)最好使用Py_ssize_t进行索引?在docs我刚刚发现#Puristscoulduse"Py_ssize_t"whichistheproperPythontypefor#arrayindices.->这是否意味着在索引NumPy/Cython时总是-数组/View应该使用Py_ssize_t?->是Py_ssize_te.G。一个unsignedint以便我不能使用@cython.boundscheck(False) 最佳答案 Py_ssize_t已签名。见PEP353,其

python - pandas 中非唯一索引的性能影响是什么?

从pandas文档中,我收集到唯一值索引可以提高某些操作的效率,并且偶尔可以容忍非唯一索引。从外部看,非唯一索引似乎不会以任何方式被利用。例如,下面的ix查询速度很慢,以至于它似乎正在扫描整个数据帧In[23]:importnumpyasnpIn[24]:importpandasaspdIn[25]:x=np.random.randint(0,10**7,10**7)In[26]:df1=pd.DataFrame({'x':x})In[27]:df2=df1.set_index('x',drop=False)In[28]:%timeitdf2.ix[0]1loops,bestof3:4

python - pandas 中非唯一索引的性能影响是什么?

从pandas文档中,我收集到唯一值索引可以提高某些操作的效率,并且偶尔可以容忍非唯一索引。从外部看,非唯一索引似乎不会以任何方式被利用。例如,下面的ix查询速度很慢,以至于它似乎正在扫描整个数据帧In[23]:importnumpyasnpIn[24]:importpandasaspdIn[25]:x=np.random.randint(0,10**7,10**7)In[26]:df1=pd.DataFrame({'x':x})In[27]:df2=df1.set_index('x',drop=False)In[28]:%timeitdf2.ix[0]1loops,bestof3:4

python - 如何打印 Pandas 数据框的特定行?

我有一个庞大的数据框,我收到了错误:TypeError:("Empty'DataFrame':nonumericdatatoplot",'发生在索引159220')我已经删除了空值,并检查了DataFrame的dtypes,所以我不知道为什么它在该行上失败了。如何仅打印数据框的那一行(索引159220)?谢谢 最佳答案 当您使用标量值调用loc时,您会得到一个pd.Series。该系列将有一个dtype。如果您想查看数据框中的行,您需要将索引器之类的数组传递给loc。用一对额外的方括号括住您的索引值print(df.loc[[159

python - 如何打印 Pandas 数据框的特定行?

我有一个庞大的数据框,我收到了错误:TypeError:("Empty'DataFrame':nonumericdatatoplot",'发生在索引159220')我已经删除了空值,并检查了DataFrame的dtypes,所以我不知道为什么它在该行上失败了。如何仅打印数据框的那一行(索引159220)?谢谢 最佳答案 当您使用标量值调用loc时,您会得到一个pd.Series。该系列将有一个dtype。如果您想查看数据框中的行,您需要将索引器之类的数组传递给loc。用一对额外的方括号括住您的索引值print(df.loc[[159

python - Numpy:对于一个数组中的每个元素,找到另一个数组中的索引

我有两个一维数组,x和y,一个比另一个小。我正在尝试查找x中y的每个元素的索引。我找到了两种简单的方法来做到这一点,第一种很慢,第二种是内存密集型。缓慢的方式indices=[]foriyiny:indices+=np.where(x==iy)[0][0]内存pigxe=np.outer([1,]*len(x),y)ye=np.outer(x,[1,]*len(y))junk,indices=np.where(np.equal(xe,ye))是否有更快的方法或更少的内存密集型方法?理想情况下,搜索将利用这样一个事实,即我们不是在列表中搜索一个东西,而是很多东西,因此更适合并行化。如果您