草庐IT

Dataframe

全部标签

python - 将具有属性和边的节点从 DataFrame 加载到 NetworkX

我是使用Python处理图形的新手:NetworkX。到目前为止,我一直在使用Gephi。那里的标准步骤(但不是唯一可能的)是:从表格/电子表格加载节点信息;其中一列应该是ID,其余列是关于节点的元数据(节点是人,所以性别,组......通常用于着色)。喜欢:id;NormalizedName;Genderper1;Jesús;maleper2;Abraham;maleper3;Isaac;maleper4;Jacob;maleper5;Judá;maleper6;Tamar;female...然后也从表/电子表格加载边,使用与通常有四列(目标、源、权重和类型)的节点电子表格的列ID中

python - 使用 pandas 将索引列添加到 DataFrame

我是pandas的初学者,在研究了文档之后,我仍然找不到一种直接的方法来执行以下操作。我有一个带有pandas.DateRange索引的DataFrame,我想添加一个包含相同DateRange的部分值的列。假设我有dfAB2010-01-0100:00:000.3407170.7024322010-01-0101:00:000.6499700.4117992010-01-0102:00:000.9323670.1080472010-01-0103:00:000.0519420.5263182010-01-0104:00:000.5183010.0578092010-01-0105:0

python - 对 pandas DataFrame 中的空值使用 None 而不是 np.nan

我有一个包含混合数据类型的pandasDataFrame。我想用None替换所有空值(而不是默认的np.nan)。出于某种原因,这似乎几乎是不可能的。实际上我的DataFrame是从csv中读入的,但这里有一个简单的DataFrame混合数据类型来说明我的问题。df=pd.DataFrame(index=[0],columns=range(5))df.iloc[0]=[1,'two',np.nan,3,4]我做不到:>>>df.fillna(None)ValueError:mustspecifyafillmethodorvalue也不是:>>>df[df.isnull()]=NoneT

pandas dataframe获取所有行名称与列名称

1.获取dataframe行名称pandas中,dataframe获取行名称,可以有如下两种方式。defcheck_rows():data={'name':['a','a','a','b','b','c','c','c'],'s1':[1,2,3,4,5,6,7,8],'s2':[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8]}df=pd.DataFrame(data)row_index=df.indexprint("row_indexis:",row_index)print("type(row_index)is:",type(row_index))rows_f1=df.in

python Pandas : DataFrame filter negative values

我想知道如何删除列中包含负值的所有索引。我正在使用PandasDataFrames。DocumentationPandasDataFrame格式:Myid-valuecol1-valuecol2-valuecol3-...valuecol30所以我的DataFrame叫做data我知道如何为1列执行此操作:data2=data.index[data['valuecol1']>0]data3=data.ix[data3]所以我只得到valuecol1>0的id,我怎样才能做一些and声明?valuecol1&&valuecol2&&valuecol3&&...&&valuecol30>0

python - matlab数据文件到pandas DataFrame

这个问题在这里已经有了答案:Read.matfilesinPython(15个答案)关闭5年前。有没有一种标准的方法可以将matlab.mat(matlab格式的数据)文件转换为PandaDataFrame?我知道使用scipy.io可以解决问题,但我想知道是否有一种直接的方法可以做到这一点。

python - 如何从 Pandas 数据框中的当前行中减去前一行并将其应用于每一行;不使用循环?

我正在使用Python3.5,并且正在使用pandas。我已经从yahoofinance加载了股票数据并将文件保存到csv。我的DataFrames从csv加载这些数据。这是我的DataFrame的csv文件的十行副本DateOpenHighLowCloseVolumeAdjClose1990-04-1226.87500026.87500026.62526.6256100250.5760361990-04-1626.50000026.75000026.37526.750500251.7524491990-04-1726.75000026.87500026.75026.875230025

python - 在 RandomForestRegressor 中得到连续不支持的错误

我只是想做一个简单的RandomForestRegressor示例。但是在测试准确性时我得到了这个错误/Users/noppanit/anaconda/lib/python2.7/site-packages/sklearn/metrics/classification.pycinaccuracy_score(y_true,y_pred,normalize,sample_weight)177178#Computeaccuracyforeachpossiblerepresentation-->179y_type,y_true,y_pred=_check_targets(y_true,y_p

python - 计算每行的字数

我正在尝试在DataFrame中创建一个新列,其中包含相应行的字数。我正在寻找单词总数,而不是每个不同单词的频率。我以为会有一种简单/快速的方法来完成这项常见任务,但在谷歌搜索并阅读了一些SO帖子(1、2、3、4)后,我被卡住了。我已经尝试了链接的SO帖子中提出的解决方案,但返回了很多属性错误。words=df['col'].split()df['totalwords']=len(words)结果AttributeError:'Series'objecthasnoattribute'split'和f=lambdax:len(x["col"].split())-1df['totalwor

Python Pandas Dataframe 按组中的最大值选择行

我有一个通过df.pivot创建的数据框:typestartendF_Typeto_dateA20150908143000345316B20150908140300NaN48020150908140600NaN12020150908143000107438803C20150908140100NaN171520150908140200NaN106220150908141000NaN14520150908141500418NaN20150908141800NaN4502015090814290019731499201509081430001952216659D201509081430004