dataframe

python - 汇总列以形成新的数据框

我有一个数据框ABCD2015-07-184.534390e+052.990611e+055.706540e+054.554383e+052015-07-223.991351e+052.606576e+053.876394e+054.019723e+052015-08-071.085791e+058.215599e+041.356295e+051.096541e+052015-08-191.397305e+068.681048e+051.672141e+061.403100e+06...我只是想对所有列求和以获得一个新的数据框ABCDsumssss按列求和，然后用to_csv()打印。

汇总 python code section pre pandas numpy dataframe

python - 如何从 Python 中创建的 Dataframe 中删除索引？

我通过使用以下命令合并2个列表创建了一个Dataframedf:importpandasaspddf=pd.DataFrame({'Name':list1,'Probability':list2})但我想删除第一列(索引列)并使名为Name的列成为第一列。我尝试使用deldf['index']和index_col=0。但他们没有工作。我还检查了reset_index()但这不是我需要的。我想从这样创建的数据框中完全删除整个索引列(如上所述)。有人请帮忙! 最佳答案您可以使用set_index,docs:importpandasas

中创 Dataframe code pandas section python python-3.x

python - pandas groupby 删除列

我正在按操作进行简单分组，尝试比较分组均值。正如您在下面看到的，我从一个更大的数据框中选择了特定的列，所有缺失值都已从中删除。但是当我分组时，我丢失了几列:我从来没有在pandas上遇到过这种情况，而且我在堆栈溢出上也没有发现任何其他类似的东西。有没有人有任何见解？最佳答案我认为这是自动排除“讨厌的”列，描述了here.示例:df=pd.DataFrame({'C':{0:-0.91985400000000006,1:-0.042379,2:1.2476419999999999,3:-0.00992,4:0.290213,5:0

groupby python 39 section pandas dataframe pandas-groupby

python - 使用 Pandas DataFrame.sort() 时，我可以让它真正对行重新编号吗？

我总是对此感到惊讶:>data=DataFrame({'x':[1,2],'y':[2,1]})>data=data.sort('y')>dataxy121012>data['x'][0]1有没有办法让索引重新分配以适应新的排序？最佳答案就我而言，我很高兴排序不会丢弃索引信息。如果是这样，那么首先有一个索引而不是另一个列就没有多大意义了。如果您想将索引重置为一个范围，您可以:>>>dataxy121012>>>data.reset_index(drop=True)xy021112您可以根据需要重新分配或使用inplace=Tru

DataFrame python section code data pandas

python - 如何在 Pandas 中复制行？

我的pandas数据框如下所示:PersonIDZipCodeGender01234588238182Female13291727188172Male21827355290291Female我想将每一行复制3次，例如:PersonIDZipCodeGender01234588238182Female01234588238182Female01234588238182Female13291727188172Male13291727188172Male13291727188172Male21827355290291Female21827355290291Female218273552902

何在 python code Female pre pandas dataframe repeat

python - 将两个数据框合并为一个新的数据框，其唯一项目标有 1 或 0

我有几个数据框。数据框#1FeatureCoeffa0.5b0.3c0.35d0.2数据框#2FeatureCoeffa0.7b0.2y0.75x0.1我想合并这个数据框并获得以下数据框:Feature|DF1|DF2a11b11c10d10y01x01我知道我可以做一个outermerge但我不知道如何从那里移动以获得我上面展示的最终数据帧。有什么想法吗？最佳答案使用concat+get_dummiesu=pd.concat([df1,df2],axis=0,keys=['DF1','DF2'])pd.get_dummies(

标有 python code section pre pandas dataframe

python - 根据列值重复 pandas DataFrame 中的行

我有以下df:code.role.persons123.Janitor.3123.Analyst.2321.Vallet.2321.Auditor.5第一行表示我有3个人扮演看门人的角色。我的问题是我需要为每个人安排一行。我的df应该是这样的:df:code.role.persons123.Janitor.3123.Janitor.3123.Janitor.3123.Analyst.2123.Analyst.2321.Vallet.2321.Vallet.2321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5

DataFrame python Auditor code 321 pandas repeat

python - 级别 NaN 必须与名称相同

我正在尝试使用以下代码计算NaN在数据框的一列中出现的次数:count=enron_df.loc['salary'].count('NaN')但是每次我运行这个我都会得到以下错误:KeyError:'LevelNaNmustbesameasname(None)'我在网上搜索了很多，试图找到解决方案，但无济于事。最佳答案如果NaN是missingvalues:enron_df=pd.DataFrame({'salary':[np.nan,np.nan,1,5,7]})print(enron_df)salary0NaN1NaN21.

级别 python 39 code enron_df pandas dataframe count nan

python - 如何在 PySpark 的 UDF 中返回 "Tuple type"？

所有datatypesinpyspark.sql.typesare:__all__=["DataType","NullType","StringType","BinaryType","BooleanType","DateType","TimestampType","DecimalType","DoubleType","FloatType","ByteType","IntegerType","LongType","ShortType","ArrayType","MapType","StructField","StructType"]我必须编写一个返回元组数组的UDF(在pyspark中)

何在 amp 34 code section python apache-spark dataframe pyspark apache-spark-sql

python - Pandas 数据框 : Remove secondary upcoming same value

我有一个数据框:col1col2a0b1c1d0c1d0在'col2'上，我只想保留顶部的第一个1并将第一个下面的每个1替换为0，输出为:col1col2a0b1c0d0c0d0非常感谢。最佳答案你可以找到第一个1的索引，并将其他设置为0:mask=df['col2'].eq(1)df.loc[mask&(df.index!=mask.idxmax()),'col2']=0要获得更好的性能，请参阅Efficientlyreturntheindexofthefirstvaluesatisfyingconditioninarray.

secondary upcoming code section stackoverflow python pandas dataframe

50 51 525354 55 56