sample_dataframe

python - pandas DataFrame 的 100% 面积图

在pandas'documentation您可以找到有关面积图的讨论，尤其是堆叠它们。有没有一种简单直接的方法来获得像这样的100%面积堆栈图来自thispost？最佳答案方法与theotherSOanswer中基本相同;将每一行除以该行的总和:df=df.divide(df.sum(axis=1),axis=0)然后您可以照常调用df.plot(kind='area',stacked=True,...)。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltnp.

python - 将 DataFrame 中的新派生列从 bool 值转换为整数

假设我有一个具有此架构的DataFramex:xSchema=StructType([\StructField("a",DoubleType(),True),\StructField("b",DoubleType(),True),\StructField("c",DoubleType(),True)])然后我有了DataFrame:DataFrame[a:double,b:double,c:double]我想要一个整数派生列。我能够创建一个bool列:x=x.withColumn('y',(x.a-x.b)/x.c>1)我的新模式是:DataFrame[a:double,b:doubl

DataFrame python code section apache-spark pyspark apache-spark-sql

python / Pandas : How to Match List of Strings with a DataFrame column

我想比较两列:Description和Employer。我想查看是否在Description列中找到了来自Employer的关键字。我已将Employer列分解为单词并转换为列表。现在我想看看这些词是否在相应的Description列中。示例输入:print(df.head(25))DateDescriptionAmountAutoNumber\03/17/2015WW120TFR?FRxxx8690140.004924623/13/2015JX154TFR?FRxxx8690150.004924653/6/2015CANSELSURVEYEPAY1182.084924693/2/20

DataFrame Strings Equipment Cansel Survey python regex string pandas matching

python - DataFrame 按元素除以行总和

我希望每个元素都除以行的总和，下面的代码总是出错。Pandas新手，谢谢!df=pd.DataFrame(np.random.rand(12).reshape(3,4),columns=list('abcd'))df_row_sum=df.apply(lambdax:x.mean(),axis=1)df/df_row_sum 最佳答案我认为你需要sum或mean每行(axis=1)并除以DataFrame.div:np.random.seed(123)df=pd.DataFrame(np.random.randint(10,siz

除以 DataFrame code section axis python pandas

python - 更改 pandas DataFrame 中每个组的第一个元素

我要确保每个vintage对应的val2的第一个值为NaN。目前两个已经是NaN，但我想确保0.53也变成NaN。df=pd.DataFrame({'vintage':['2017-01-01','2017-01-01','2017-01-01','2017-02-01','2017-02-01','2017-03-01'],'date':['2017-01-01','2017-02-01','2017-03-01','2017-02-01','2017-03-01','2017-03-01'],'val1':[0.59,0.68,0.8,0.54,0.61,0.6],'val2':[

DataFrame python code 2017 39 pandas

python - 在 pandas DataFrame 中查找重复行的索引

pandas在给定DataFrame中查找相同行的索引而不迭代单个行的方法是什么？虽然可以使用unique=df[df.duplicated()]找到所有唯一行，然后使用unique.iterrows()迭代唯一条目并借助pd.where()提取相等条目的索引，pandas的做法是什么？示例:给定以下结构的DataFrame:|param_a|param_b|param_c1|0|0|02|0|2|13|2|1|14|0|2|15|2|1|16|0|0|0输出:[(1,6),(2,4),(3,5)] 最佳答案使用参数duplica

DataFrame python code section pandas

python - 我们可以在 .NET ironpython 中加载 pandas DataFrame 吗？

我们可以使用ironpython在.NET空间中加载pandasDataFrame吗？如果不是，我正在考虑将pandasdf转换为csv文件，然后在.net空间中读取。最佳答案不，Pandas与CPython紧密相连。正如您所说，最好的办法是使用Pandas在Python中进行分析并将结果导出为CSV。关于python-我们可以在.NETironpython中加载pandasDataFrame吗？，我们在StackOverflow上找到一个类似的问题：

中加 ironpython section 中进 python .net pandas python.net

python - 使用 pandas 将列从一个 DataFrame 复制到另一个 DataFrame 的最快方法？

我有一个大的DataFrame(百万+)条记录，我用它来存储我的核心数据(比如数据库)，然后我有一个较小的DataFrame(1到2000)条记录，我正在组合其中的一些我程序中每个时间步的列，可以是几千个时间步。两个DataFrame都以相同的方式通过id列进行索引。我使用的代码是:df_large.loc[new_ids,core_cols]=df_small.loc[new_ids,core_cols]其中core_cols是我正在处理的大约10个字段的列表，new_ids是小型DataFrame中的ID。这段代码工作正常，但它是我代码中最慢的部分，我的数量级为三。我只是想知道它们

DataFrame 最快 columns df python pandas

python - 在 Python 中将数组转换为 DataFrame

importpandasaspdimportnumpyasnpe=np.random.normal(size=100)e_dataframe=pd.DataFrame(e)当我输入上面的代码时，我得到了这个答案:但是如何更改列名呢？最佳答案您可以添加参数列或使用dict与转换为列名的键:np.random.seed(123)e=np.random.normal(size=10)dataframe=pd.DataFrame(e,columns=['a'])print(dataframe)a0-1.08563110.99734520

DataFrame python section pandas numpy

python - 使用元组键从字典创建 MultiIndex pandas DataFrame

我想从Pythoncollections.Counter字典高效地创建一个pandasDataFrame..但是还有一个额外的要求。Counter字典如下所示:(a,b):5(c,d):7(a,d):2这些字典键是元组，其中第一个成为行，第二个成为数据框的列。生成的DataFrame应该如下所示:bda52c07对于较大的数据，我不想使用增长方法df[a][b]=5等创建数据框，因为它创建新数据框的副本时效率极低每次完成这样的扩展(我相信)。也许正确的答案是通过numpy数组？最佳答案使用Series和unstackpd.Ser

MultiIndex DataFrame strong code section python pandas dictionary multi-index

91 92 939495 96 97