panda

python - 如何强制 pandas read_csv 对所有浮点列使用 float32？

因为我不需要double我的机器内存有限，我想处理更大的数据集我需要将提取的数据(作为矩阵)传递给BLAS库，单精度的BLAS调用比double等效调用快2倍。请注意，并非原始csv文件中的所有列都具有浮点类型。我只需要将float32设置为浮点列的默认值。最佳答案尝试:importnumpyasnpimportpandasaspd#Sample100rowsofdatatodeterminedtypes.df_test=pd.read_csv(filename,nrows=100)float_cols=[cforcindf_t

python - 如何在 Pandas 中绘制日期的核密度图？

我有一个pandas数据框，其中每个观察值都有一个日期(作为datetime[64]格式的条目列)。这些日期分布在大约5年的时间段内。我想绘制所有观测日期的核密度图，年份标记在x轴上。我已经弄清楚如何创建相对于某个引用日期的时间增量，然后创建每个观察与引用日期之间的小时数/天数/年数的密度图:df['relativeDate'].astype('timedelta64[D]').plot(kind='kde')但这并不是我想要的:如果我转换为年增量，则x轴是正确的，但我失去了年内变化。但是，如果我采用更小的时间单位(例如小时或天)，则x轴标签更难解释。在Pandas中实现此功能的最简单

何在 python 2010 01 section pandas matplotlib time-series kernel-density

python - pandas 的开发版本给出 importerror : C extension: 'hashtable' not built on python 3. 4 (anaconda)

尝试使用3.4进行开发构建(之前在2.7中进行过管理)。Python只是在osx10.10上安装了一个anaconda。我可以得到我:git克隆Pandas运行pythonsetup.pybuild_ext--inplace(没有错误)运行pythonsetup.pydevelop。但是当我尝试导入pandas时，我得到:importpandasaspdTraceback(mostrecentcalllast):File"",line1,inimportpandasaspdFile"/Users/Nick/github/pandas/pandas/__init__.py",line13

python importerror pandas extension up-to-date python-3.x

python - Pandas :难以理解合并的工作原理

我在合并方面做错了，我不明白它是什么。我已完成以下操作来估计一系列整数值的直方图:importpandasaspndimportnumpyasnpseries=pnd.Series(np.random.poisson(5,size=100))tmp={"series":series,"count":np.ones(len(series))}hist=pnd.DataFrame(tmp).groupby("series").sum()freq=(hist/hist.sum()).rename(columns={"count":"freq"})如果我打印hist和freq这就是我得到的:>

难以 python code series freq pandas

python - 如何在不添加额外索引的情况下使用 Pandas groupby apply()

我经常想通过组合分组DataFrame的多个列来创建一个新的DataFrame。apply()函数允许我这样做，但它要求我创建一个不需要的索引:In[359]:df=pandas.DataFrame({'x':3*['a']+2*['b'],'y':np.random.normal(size=5),'z':np.random.normal(size=5)})In[360]:dfOut[360]:xyz0a0.201980-0.4703881a0.190846-2.0890322a-1.1310100.2278593b-0.263865-1.9065754b-1.335956-0.722

何在 groupby x.y x.z 39 python pandas apply

python - Pandas 内存

我有冗长的计算，我重复了很多次。因此，我想使用内存(如jug和joblib等包)，与Pandas一致.问题是这个包是否能很好地内存PandasDataFrames作为方法参数。有人试过吗？有没有其他推荐的包/方法来做到这一点？最佳答案 jug的作者在这里:jug工作正常。我刚刚尝试了以下方法并且有效:fromjugimportTaskGeneratorimportpandasaspdimportnumpyasnp@TaskGeneratordefgendata():returnpd.DataFrame(np.arange(3434

python Pandas section noreferrer noopener package memoization

python - 对 pandas DataFrame 进行就地行操作

假设我有这个:>>>x=pandas.DataFrame([[1.0,2.0,3.0],[3,4,5]],columns=["A","B","C"])>>>printxABC01231345现在我想按行规范化x---也就是说，将每一行除以其总和。如thisquestion中所述，这可以通过x=x.div(x.sum(axis=1),axis=0)来实现。但是，这会创建一个新DataFrame。如果我的DataFrame很大，即使我立即将其分配给原始名称，创建这个新DataFrame也会消耗大量内存。是否有一种有效的方法来执行此操作？我想要类似x.idiv()的东西，它提供div的axi

就地 DataFrame code section python pandas

python - Pandas ，将系列连接到 DF 作为行

我试图将一个系列添加到一个空的DataFrame中，但找不到答案在文档或其他问题中。因为您可以按行附加两个DataFrame或者按列看来系列中必须缺少一个“轴标记”。能谁能解释为什么这不起作用？importPandasaspddf1=pd.DataFrame()s1=pd.Series(['a',5,6])df1=pd.concat([df1,s1],axis=1)#gorunsomeprocessreturns2,s3,sn...s2=pd.Series(['b',8,9])df1=pd.concat([df1,s2],axis=1)s3=pd.Series(['c',10,11])

python Pandas DataFrame code section concat series

python - Pandas 的数据框(Python)是否更接近 R 的数据框或数据表？

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭4年前。Improvethisquestion要理解我的问题，我应该首先指出R数据表不仅仅是带有语法糖的R数据帧，还有重要的行为差异:数据表中通过引用进行列分配/修改避免了在内存中复制整个对象(请参阅thisquoraanswer中的示例)，因为它是数据帧中的情况。我多次发现data.table的行为引起的速度和内存差异是一个关键因素，它允许人们处理一些大数据集，而它不会data.frame的行为是可能的。因此，我想知道的是:在Python中

python Pandas section code column r dataframe data.table

python - Pandas 使用跨多个列的字典值相乘

给定以下数据框:importpandasaspddf=pd.DataFrame({'a':[1,2,3,4,5],'b':[5,4,3,3,4],'c':[3,2,4,3,10],'d':[3,2,1,1,1]})以及以下参数列表:params={'a':2.5,'b':3.0,'c':1.3,'d':0.9}生成以下所需的输出:abcdoutput0153324.11242221.42334122.63433123.845410138.4我一直在用它来产生结果:df['output']=[np.sum(params[col]*df.loc[idx,col]forcolindf)for

相乘 python code pandas section numpy

79 80 818283 84 85