草庐IT

pyhton_Pandas

全部标签

python - 使用第一列作为索引的 Excel 到 Pandas DataFrame

我在Excel中有一个非常简单的表格,我正在尝试将其读入DataFrame代码:frompandasimportDataFrame,Seriesimportpandasaspddf=pd.read_excel('params.xlsx',header=[0,1],index_col=None)这会产生以下DataFrame:我没想到param1.key会成为索引,尤其是在设置了index_col=None之后。有没有一种方法可以使用生成的索引而不是第一列的数据将数据放入DataFrame中?更新—以下是您尝试reset_index()解决问题时发生的情况:版本信息:python3.5.

python - 当系列包含集合时,为什么我的 pandas rolling().apply() 不起作用?

我有一个pandas系列,其中每个单元格都是一个元组。我正在尝试对该系列执行rolling().apply()操作,而我尝试应用的函数从未被调用过。这是一个愚蠢的例子,说明了我在说什么:>>>importpandasaspd>>>pd.__version__u'0.18.0'>>>die=lambdax:0/0>>>s=pd.Series(zip(range(5),range(5)))>>>s0(0,0)1(1,1)2(2,2)3(3,3)4(4,4)dtype:object一个简单的apply按预期工作,因为函数被调用:>>>s.apply(die)[...]ZeroDivision

python - Pandas - 等效的 SQL case 语句

注意:除了megajoin然后计算日期之间的差异之外,寻求一些有效方法的帮助我有包含国家ID和日期的table1(这些值没有重复项),我想总结table2信息(包含国家、日期、cluster_x和count变量,其中cluster_x是cluster_1、cluster_2、cluster_3),以便table1已将集群ID的每个值和来自table2的汇总计数附加到它,其中datefromtable2发生在table1中的日期之前30天内。我相信这在SQL中很简单:HowtodothisinPandas?selecta.date,a.country,sum(casewhena.date

python - pandas 在 to_latex 时用任意数字替换 NAN

我有一个大型多索引多列数据框df,我没有在这里展示。我像这样生成一片索引:subDf=df.sort_index(level=0).loc[:'e']然后该切片在索引的第二层包含NaN:>>>subDf.iloc[0:1]changerobustnessvaluebaselineNaN-14.5to_csv()生成的csv似乎是正确的:>>>subDf.iloc[0:1].to_csv()Out[15]:'robustness,value,change\nbaseline,,-14.5\n'同样,to_html()的功能与预期的一样。但是,当我尝试获取latex_output时,NaN

python - 如何使用 pandas 查找内存泄漏

我有一个程序重复循环pandas数据框,如下所示:monts=[somemonths]formonthinmonths:df=original_df[original_df.month==month].copy()result=some_function(df)print(result)然而,每次迭代所需的内存不断增加types|#objects|totalsize================================================|===========|============您对如何查找内存泄漏有一些建议吗?编辑请注意,在每次迭代时手动调用gc.col

带有 SKLEARN、PANDAS 和 NUMPY 问题的 Python 部署包?

我是AWS和Python的新手,正在尝试使用AWSLambda函数实现一个简单的ML推荐系统以进行自学。我被困在sklearn、numpy和pandas的组合包装上。如果组合任何两个库意味着(Pandas和Numpy)或(Numpy和Skype)工作正常并且部署完美。因为我使用的是ML系统,所以我需要sklearn(scipy、pandas和numpy),它无法工作并在awslambda测试中出现此错误。到目前为止我做了什么:我的部署包来自python3.6virtualenv,而不是直接来自主机。(已安装/配置python3.6、virtualenv和awscli,并且您的lambd

python - 如何在遵守列表顺序的同时将 pandas .replace() 与正则表达式列表一起使用?

我有2个数据帧:一个(A)带有正则表达式形式的一些白名单主机名(即(.*)microsoft.com、(*.)go.microsoft.com...)和另一个(B)具有站点的实际完整主机名。我想用白名单(第一个)数据框的正则表达式文本向第二个数据框添加一个新列。但是,Pandas的.replace()方法似乎并不关心其to_replace和value参数的订单项。我的数据是这样的:In[1]AOut[1]:wildcards\42(.*)activation.playready.microsoft.com35(.*)v10.vortex-win.data.microsoft.com40

python - Pandas导入CSV和Excel文件报错

我正在尝试使用PythonPandas导入CSV文件。此文件中的示例数据如下,其中第一行是用逗号分隔的列名。EndCustomerOrganizationID,EndCustomerOrganizationName,EndCustomerTopParentOrganizationID,EndCustomerTopParentOrganizationName,ResellerTopParentID,ResellerTopParentName,Business,RevSumDivision,RevSumCategory,ProductFamily,Version,PricingLevel,

python - Pandas 作为 Flask 应用程序的快速数据存储

Pandas运行转换、加载数据的速度和易用性给我留下了深刻印象,我想利用所有这些不错的属性(以及其他属性)来为一些大型数据集建模(~100-200k行,Flask在浏览器中提供数据集的View。我目前正在使用Postgres数据库来存储数据,但是数据的导入(来自csv文件)缓慢、乏味且容易出错,从数据库中取出数据并进行处理也不容易.数据一旦导入就永远不会改变(没有CRUD操作),所以我认为将它存储为多个pandasDataFrame(以hdf5格式存储并通过pytables加载)是理想的。问题是:(1)这是个好主意吗?需要注意什么?(例如,我不希望出现并发问题,因为DataFrame是

python - 将两个指数不匹配的 Pandas 系列相乘

从df创建了两个系列:s1和s2。每个都有相同的长度但不同的索引。s1.multiply(s2)合并不匹配的索引,而不是与它们相乘。我只想将s1与s2相乘,忽略不匹配的索引。我可以运行s1.reset_index()和s2.reset_index()然后从这两个dfs中取出我想要的列,因为它将原始索引转换为一个单独的专栏,但这很乏味,我认为可能有更简单的方法来做到这一点。s1.multiply(s2,axis='columns')好像也没用 最佳答案 我认为使用reset_index()是正确的方法,但是有一个选项可以删除索引,而不