pyspark-dataframes

python - Groupby 所选 DataFrame 列的值的给定百分位数

假设我有一个DataFrame，其中的列仅包含实数值。>>dfcol1col2col300.907609824.20799113.74365915236.48884222.3586963245.09259230.00679300.000000419.319746119697.405685我想按所选列(例如col1)的四分位数(或我指定的任何其他百分位数)对其进行分组，以对这些组执行一些操作。理想情况下，我想做类似的事情:df.groupy(quartiles_of_col1).mean()#notworking,howtocodequartiles_of_col1?输出应给出对应于co

给定 DataFrame col code section python pandas group-by

python - 使用 map : A value is trying to be set on a copy of a slice from a DataFrame 时的 Pandas 警告

我有以下代码并且可以正常工作。这基本上重命名了列中的值，以便以后可以合并它们。pop=pd.read_csv('population.csv')pop_recent=pop[pop['Year']==2014]mapping={'Korea,Rep.':'SouthKorea','Taiwan,China':'Taiwan'}f=lambdax:mapping.get(x,x)pop_recent['CountryName']=pop_recent['CountryName'].map(f)Warning:Avalueistryingtobesetonacopyofaslicefrom

DataFrame python 39 code pop pandas

python - Pandas DataFrame 中每月平均每日记录数

我有一个带有TIMESTAMP列的pandasDataFrame，它是datetime64数据类型。请记住，最初此列未设置为索引；索引只是常规整数，前几行如下所示:TIMESTAMPTYPE02014-07-2511:50:30.640212014-07-2511:50:46.160322014-07-2511:50:57.3702每天有任意条记录，也可能有几天没有数据。我想要获取的是每月平均每日记录数，然后将其绘制为一个条形图，x轴为月份(2014年4月、2014年5月...等)。我设法使用下面的代码计算了这些值dfWIM.index=dfWIM.TIMESTAMPforiinran

DataFrame 每月 TIMESTAMP code 39 python pandas time-series

python - pyspark 在没有 pandas 的情况下将一列拆分为多列

我的问题是如何将一列拆分为多列。我不知道为什么df.toPandas()不起作用。例如，我想将“df_test”更改为“df_test2”。我看到很多使用pandas模块的例子。还有别的办法吗？提前谢谢你。df_test=sqlContext.createDataFrame([(1,'14-Jul-15'),(2,'14-Jun-15'),(3,'11-Oct-15'),],('id','date'))df_test2iddaymonthyear114Jul15214Jun15111Oct15 最佳答案 Spark>=2.2您可以跳

多列 pyspark 34 code date python apache-spark apache-spark-sql

python - Pandas DataFrame 应用() ValueError : too many values to unpack (expected 2)

我刚开始接触Python，虽然我很兴奋，但似乎我离Python思维还很远。这是一个方法示例，其中到处都是“次优”一词。虽然这对于我相对较小的数据集来说已经足够了，但我想知道如何才能更好地编写它？importpandasaspdfrompandasimportDataFrame#createsamplelogdataframelg=pd.DataFrame(['Accessviolationataddress00A97...','Trytoeditthesplinesorchange...','Accessviolationataddress00F2B...','Pleasemakesu

ValueError DataFrame 39 code msg python pandas lambda

python - PySpark DataFrame 无法删除重复项

您好，我创建了一个spark数据框，我正在尝试删除重复项:df.drop_duplicates(subset='id')我收到以下错误:Py4JError:Anerroroccurredwhilecallingz:org.apache.spark.api.python.PythonUtils.toSeq.Trace:py4j.Py4JException:MethodtoSeq([classjava.lang.String])doesnotexistatpy4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:335

DataFrame PySpark code section java python apache-spark apache-spark-sql pyspark-sql

python - pyspark 行号数据框

我有一个数据框，包含时间列、a、b、c、d、val。我想创建一个带有附加列的数据框，该列将包含行的行号，在每个组中，其中a、b、c、d是组键。我尝试使用sparksql，通过定义一个窗口函数，特别是在sql中，它看起来像这样:selecttime,a,b,c,d,val,row_number()over(partitionbya,b,c,dorderbytime)asrnfromtablegroupbya,b,c,d,val我想在数据框itslef上执行此操作，而不使用sparksql。谢谢最佳答案我不太了解pythonapi，

行号 pyspark section 34 python apache-spark apache-spark-sql

python - pandas dataframe - 根据列标题更改值

我有一个如下所示的dataframe:In[74]:data2Out[74]:abc2012-06-120112012-06-131102012-06-141012012-06-151012012-06-161102012-06-17101有没有办法让值=值=1的列标题？结果df:abc2012-06-120bc2012-06-13ab02012-06-14a0c2012-06-15a0c2012-06-16ab02012-06-17a0c然后删除=0的值，使df减少到2列:(此时列标题不相关)结果df:122012-06-12cb2012-06-13ab2012-06-14ac201

dataframe python 2012 06 section pandas

python - Pandas DataFrame 按天/小时/分钟切片

我有带有日期时间索引的pandasDataframe，例如“YYYY-MM-DDHH:MM:SS”。IndexParameter2007-05-0214:14:08134.82007-05-0214:14:32134.82007-05-0214:14:41134.82007-05-0214:14:53134.82007-05-0214:15:01134.82007-05-0214:15:09134.8......2007-05-3023:08:02105.92007-05-3023:18:02105.92007-05-3023:28:02105.92007-05-3023:38:031

DataFrame python code 2007 section pandas slice

python - Pandas - Groupby 并创建新的 DataFrame？

这是我的情况-In[1]:dataOut[1]:ItemType0OrangeEdible,Fruit1BananaEdible,Fruit2TomatoEdible,Vegetable3LaptopNonEdible,ElectronicIn[2]:type(data)Out[2]:pandas.core.frame.DataFrame我想做的是创建一个只有Fruits的数据框，所以我需要groupby这样Fruit存在于类型。我试过这样做:grouped=data.groupby(lambdax:"Fruit"inx,axis=1)我不知道这是否是这样做的方式，我在理解groupb

DataFrame Groupby code 39 Edible python pandas grouping data-analysis