pyhton_Pandas

python - Pandas :时间戳系列中的唯一天数

我有将近3,000,000行的PandasDataFrame。其中一列称为TIMESTAMP，属于datetime64类型。时间戳格式如下:2015-03-3122:56:45.510我的目标是计算收集数据的天数。我最初的方法很简单:(df.TIMESTAMP.max()-df.TIMESTAMP.min()).days但是，我发现这可能并不总是正确的，因为不能保证每天都收集数据。相反，我尝试使用map和apply计算时间戳系列中的唯一天数，并且两者都需要相当长的时间来处理3,000,000行:%timeitlen(df['TIMESTAMP'].map(lambdat:t.date(

python - Pandas :如何从相关矩阵中删除自相关

我试图找到不同列与pandas的最高相关性。我知道可以获得相关矩阵df.corr()我知道在那之后我可以获得最高的相关性df.sort()df.stack()df[-5:]问题是这些相关性还包含列本身的值(1)。如何删除这些包含与self相关的列？我知道我可以通过删除所有1值来删除它们，但我不想这样做，因为也可能存在实际的1相关性。最佳答案说你有corrs=df.corr()然后问题出在对角线元素IIUC上。您可以轻松地将它们设置为某个负值，例如-2(这必然低于所有相关性)np.fill_diagonal(corrs.value

python Pandas 000000 0.747365 747365 numpy correlation

python - Pandas 在 Windows 终端中绘图

我有一个简单的Pandas数据框。尝试从IPython的Windows10终端session进行绘图给了我这个:In[4]:df=pd.DataFrame({'Y':[1,3,5,7,9],'X':[0,2,4,6,8]})In[5]:dfOut[5]:XY001123245367489In[6]:df.plot(kind='line')Out[6]:In[7]:我看不到任何情节。我做错了什么吗？最佳答案我认为您可以尝试为笔记本添加%matplotlibinline或ipythonnotebook--matplotlibinli

Windows python code matplotlib section pandas ipython interactive

python - Pandas 数据框中以相同字符串开头的列的总和值

我有一个包含大约100列的数据框，如下所示:IdEconomics-1English-107English-2History-3Economics-zzEconomics-2\05611010011100001026001001343000101414010010HistoEconomics-51Literature-reLiteratureu40101010001200003011041000我的目标是只保留全局类别——英语、历史、文学——并分别在此数据框中写入它们的组件值的总和。例如，“English”将是“English-107”和“English-2”的总和:IdEconomi

python Pandas code 39 section dataframe startswith

python - 如何使用 Jython 导入 Pandas

我是python新手，我已经安装了Jython2.7.0Javaimportorg.python.util.PythonInterpreter;importorg.python.core.*;publicclassMain{publicstaticvoidmain(String[]args){PythonInterpreterinterp=newPythonInterpreter();interp.execfile("D:/Users/JY/Desktop/test/for_java_test.py");interp.close();}}pythonimportpandasaspdim

python Jython section strong pandas jython-2.7

python - 来自数据框 Pandas 的数据的多线程

我正在努力使用多线程来计算购物篮中有不同购物项目的客户列表之间的相关性。所以我有一个包含1,000个客户的pandas数据框，这意味着我必须计算相关性100万次，这需要很长时间才能处理数据框的示例如下所示:IDItem1Banana1Apple2Orange2Banana2Tomato3Apple3Tomato3Orange这是代码的简化版本:importpandasaspddefrelatedness(customer1,customer2):#dosomecalculationstomeasuretherelationbetweenthecustomersdata=pd.read_

多线 python section customers customers_list multithreading dataframe bigdata

python - 在 Pandas 中拆分一个字符串并将其加入旧数据

我做的事情看似简单，但我想不通。我有数据框，例如CityStateZIPAmesIA50011-3617AnkenyIA50021我想按-拆分邮政编码，并仅将第一个邮政编码保存在具有旧数据和新邮政编码的新数据框中。我尝试执行以下操作。data_short_zip=datadf=data['ZIP'].str.split('-').str[0]data_short_zip.join(df)这不仅会引发错误，而且看起来不符合Python规范。有没有简单的方法可以做到这一点？输出数据看起来像CityStateZIPAmesIA50011AnkenyIA50021

并将 python code section pre pandas

python - 如何对 pandas DataFrame 中的值进行二值化？

我有以下数据框:df=pd.DataFrame(['Male','Female','Female','Unknown','Male'],columns=['Gender'])我想将其转换为包含“男性”、“女性”和“未知”列的DataFrame，值0和1表示性别。GenderMaleFemaleMale10Female01....为此，我编写了一个函数并使用map调用该函数。defisValue(x,value):if(x==value):return1else:return0forvalueindf['Gender'].unique():df[str(value)]=df['Gende

DataFrame python 39 code section pandas scikit-learn

python - 按两列分组并计算 Pandas 中每个组合的出现次数

我有以下数据框:data=pd.DataFrame({'user_id':['a1','a1','a1','a2','a2','a2','a3','a3','a3'],'product_id':['p1','p1','p2','p1','p1','p1','p2','p2','p3']})product_iduser_idp1a1p1a1p2a1p1a2p1a2p1a2p2a3p2a3p3a3在实际情况下可能还有其他一些列，但我需要做的是按数据框按product_id和user_id列分组并计算每个组合的数量并将其添加为新数据框中的新列输出应该是这样的:user_idproduct_i

python Pandas 39 product_id product dataframe data-analysis

python - 如何在没有列名或行名的情况下选择 Pandas 中的列和行？

我有一个像这样的Pandas数据框(df)CloseCloseCloseCloseCloseDate2000-01-0300:00:00NaNNaNNaNNaN-0.0339442000-01-0400:00:00NaNNaNNaNNaN0.03513662000-01-0500:00:00-0.033944NaNNaNNaN-0.01724142000-01-0600:00:000.0351366-0.033944NaNNaN-0.004385962000-01-0700:00:00-0.01724140.0351366-0.033944NaN0.0396476在R中如果我想选择第五

列名何在 code pre section python pandas

34 35 363738 39 40