pyspark-dataframes

python - 获取多个 Pandas DataFrame 的平均值

我正在生成许多具有相同形状的数据框，我想将它们相互比较。我希望能够获得跨数据帧的平均值和中位数。Source.0Source.1Source.2Source.3cluster00.0011820.1845350.8142300.00005410.0000010.1604900.8395080.00000120.0000010.1738290.8261140.00005530.0004320.1800650.8195020.00000140.0001520.1570410.8426940.00011350.0001830.1741420.8256740.00000160.0000010.

python - 如何子类化 Pandas DataFrame？

对Pandas类进行子类化似乎很常见，但我找不到有关该主题的引用资料。(看来Pandas的开发者仍在努力:Easiersubclassing#60。)关于这个主题有一些SO问题，但我希望这里有人可以提供一个更系统的说明，说明当前满足两个一般要求的子类pandas.DataFrame的最佳方法:在MyDF实例上调用标准DataFrame方法应该生成MyDF实例在MyDF实例上调用标准DataFrame方法应该让所有属性仍附加到输出(继承pandas.Series有什么显着差异吗？)子类化代码pd.DataFrame:importnumpyasnpimportpandasaspdclass

DataFrame python pandas code subclassing

python - 使用 pandas.DataFrame.to_csv() 按列输出不同的精度？

问题是否可以专门为Pythonpandas封装方法打印的每一列指定浮点精度pandas.DataFrame.to_csv?背景如果我有一个像这样排列的pandas数据框:In[53]:df_data[:5]Out[53]:yearmonthdaylatslonsvals0201261681.862745-29.8342540.01201261681.862745-29.5027620.12201261681.862745-29.1712710.03201261681.862745-28.8397790.24201261681.862745-28.5082870.0float_forma

DataFrame python code 81.862745 862745 csv numpy floating-point pandas

python - 如何将向量拆分为列 - 使用 PySpark

这个问题在这里已经有了答案:HowtoaccesselementofaVectorUDTcolumninaSparkDataFrame?(5个回答)关闭3个月前。上下文:我有一个DataFrame有2列:单词和向量。其中“vector”的列类型为VectorUDT。一个例子:word|vectorassert|[435,323,324,212...]我想得到这个:word|v1|v2|v3|v4|v5|v6......assert|435|5435|698|356|....问题:如何使用PySpark将包含向量的列拆分为每个维度的多个列？提前致谢最佳答案

PySpark python section code 34 apache-spark apache-spark-sql apache-spark-ml

python - 测试 pandas DataFrame 是否存在

在我的代码中，我有几个变量可以包含pandasDataFrame或什么都不包含。假设我想测试一下是否已经创建了某个DataFrame。我的第一个想法是像这样测试它:ifdf1:#dosomething但是，该代码以这种方式失败:ValueError:ThetruthvalueofaDataFrameisambiguous.Usea.empty,a.bool(),a.item(),a.any()ora.all().很公平。理想情况下，我希望有一个适用于DataFrame或PythonNone的存在测试。这是一种可行的方法:ifnotisinstance(df1,type(None)):#

DataFrame python code strong df1 pandas

python - 计算 PySpark 中 Spark 数据帧每列中非 NaN 条目的数量

我在Hive中加载了一个非常大的数据集(大约190万行和1450列)。我需要确定每列的“覆盖率”，即每列具有非NaN值的行的比例。这是我的代码:frompysparkimportSparkContextfrompyspark.sqlimportHiveContextimportstringasstringsc=SparkContext(appName="compute_coverages")##CreatethecontextsqlContext=HiveContext(sc)df=sqlContext.sql("select*fromdata_table")nrows_tot=df.

中非条目 code count 34 python apache-spark dataframe pyspark apache-spark-sql

python - PySpark:when子句中的多个条件

我想修改当前为空白的数据框列(Age)的单元格值，并且仅当另一列(Survived)的相应行的值为0时，我才会这样做，而该行的Age为空白。如果它在Survived列中为1，但在Age列中为空白，那么我将其保留为null。我尝试使用&&运算符，但没有成功。这是我的代码:tdata.withColumn("Age",when((tdata.Age==""&&tdata.Survived=="0"),mean_age_0).otherwise(tdata.Age)).show()任何建议如何处理？谢谢。错误信息:SyntaxError:invalidsyntaxFile"",line1td

PySpark python code 34 section apache-spark dataframe apache-spark-sql

python - 使用 to_html 将 CSS 类应用于 Pandas DataFrame

我在使用Pandas“to_html”方法应用“classes”参数来设置DataFrame样式时遇到问题。"classes:strorlistortuple,defaultNone应用于生成的html表的CSS类"来自:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_html.html我可以像这样(例如)渲染一个样式化的DataFrame:df=pd.DataFrame([[1,2],[1,3],[4,6]],columns=['A','B'])myhtml=df.style.set

DataFrame to_html gt lt 39 python pandas

python - 如何从 DataFrame 图中排除几列？

我有一个大约25列的DataFrame，其中有几列包含不适合绘图的数据。DataFrame.hist()对这些抛出错误。如何指定这些列应从绘图中排除？最佳答案注意，对@ChangShe响应的修改，从pandas0.16开始，-运算符计划弃用。鼓励使用difference()方法。exclude=['badcol1','badcol2']df.loc[:,df.columns.difference(exclude)].hist()更新deprecation:df-df['A']isnowdeprecatedandwillberem

图中 DataFrame section code python pandas

python - 如何对 PySpark 程序进行单元测试？

我当前的Java/Spark单元测试方法通过使用“本地”实例化SparkContext并使用JUnit运行单元测试来工作(详细here)。必须组织代码在一个函数中执行I/O，然后使用多个RDD调用另一个函数。这很好用。我有一个用Java+Spark编写的经过高度测试的数据转换。我可以用Python做同样的事情吗？如何使用Python运行Spark单元测试？最佳答案我也建议使用py.test。py.test可以轻松创建可重用的SparkContext测试装置并使用它来编写简洁的测试函数。您还可以专门化夹具(例如创建Streamin

PySpark python spark section test unit-testing apache-spark