pyspark-dataframes

python - 在 pandas.DataFrame 的对角线上设置值

我有一个pandas数据框，我想将对角线设为0importnumpyimportpandasdf=pandas.DataFrame(numpy.random.rand(5,5))dfOut[6]:0123400.5365960.6743190.0328150.9080860.21533410.7350220.9545060.8891620.7116100.41511820.1199850.9790560.9018910.6878290.94754930.1869210.8991780.2962940.5211040.63892440.3540530.0600220.2752240.63

apache-spark - 如何在 PySpark 中运行脚本

我正在尝试在pyspark环境中运行一个脚本，但到目前为止我还不能。如何在pyspark中运行像pythonscript.py这样的脚本？最佳答案你可以这样做:./bin/spark-submitmypythonfile.py从Spark2.0开始不支持通过pyspark运行python应用程序。关于apache-spark-如何在PySpark中运行脚本，我们在StackOverflow上找到一个类似的问题： https://stackoverflow

中运何在 section code apache-spark pyspark

python - Pyspark:解析一列 json 字符串

我有一个由一列组成的pyspark数据框，称为json，其中每一行都是json的unicode字符串。我想解析每一行并返回一个新的数据框，其中每一行都是解析后的json。#SampleDataFramejstr1=u'{"header":{"id":12345,"foo":"bar"},"body":{"id":111000,"name":"foobar","sub_json":{"id":54321,"sub_sub_json":{"col1":20,"col2":"somethong"}}}}'jstr2=u'{"header":{"id":12346,"foo":"baz"},"

Pyspark python 34 json code apache-spark

python - 在 Pandas DataFrame 中删除重复索引的最快方法

这个问题在这里已经有了答案:Removepandasrowswithduplicateindices(7个回答)关闭6年前。如果我想在数据框中删除重复的索引，由于显而易见的原因，以下方法不起作用:myDF.drop_duplicates(cols=index)和myDF.drop_duplicates(cols='index')查找名为“索引”的列如果我想删除一个索引，我必须这样做:myDF['index']=myDF.indexmyDF=myDF.drop_duplicates(cols='index')myDF.set_index=myDF['index']myDF=myDF.dr

DataFrame 最快 section index myDF python pandas duplicate-removal

python - 如何添加第三方 Java JAR 文件以在 PySpark 中使用

我有一些Java中的第三方数据库客户端库。我想通过java_gateway.py例如:使客户端类(不是JDBC驱动程序!)通过Java网关对Python客户端可用:java_import(gateway.jvm,"org.mydatabase.MyDBClient")不清楚将第三方库添加到JVM类路径的位置。我试图添加到文件compute-classpath.sh，但这似乎不起作用。我明白了:Py4jError:Tryingtocallapackage此外，与Hive相比:hiveJAR文件未通过文件compute-classpath.sh加载，这让我很怀疑。似乎还有一些其他机制正在设

PySpark python section code pre apache-spark py4j

python - "Too many indexers"与 DataFrame.loc

我已阅读thedocsaboutslicers一百万次，但我从来没有想过它，所以我仍在试图弄清楚如何使用loc将DataFrame与MultiIndex.我将从thisSOanswer中的DataFrame开始:valuefirstsecondthirdfourthA0B0C1D02D13C2D06D17B1C1D010D111C2D014D115A1B0C1D018D119C2D022D123B1C1D026D127C2D030D131A2B0C1D034D135C2D038D139B1C1D042D143C2D046D147A3B0C1D050D151C2D054D155B1C1D

amp DataFrame code pandas D1 python

python - 在 Spark RDD 和/或 Spark DataFrames 中 reshape /透视数据

我有一些以下格式的数据(RDD或SparkDataFrame):frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)rdd=sc.parallelize([('X01',41,'US',3),('X01',41,'UK',1),('X01',41,'CA',2),('X02',72,'US',4),('X02',72,'UK',6),('X02',72,'CA',7),('X02',72,'XX',8)])#converttoaSparkDataFrameschema=StructType([StructField('ID',

Spark DataFrames 39 code section python apache-spark pyspark apache-spark-sql pivot

Python Pandas : Add a column to my dataframe that counts a variable

我有一个这样的数据框“gt”:orggrouporg11org21org32org43org53org63我想将列“count”添加到gt数据框以计算组的成员数，预期结果如下:orggroupcountorg112org212org321org433org533org633我知道如何对组中的一项进行计数，但不知道如何使所有组项的计数重复，这是我使用的代码:gtcounts=gt.groupby('group').count()有人可以帮忙吗？最佳答案调用transform这将返回一个与原始df对齐的Series:In[223]:

dataframe variable org section code python pandas count group-by

python - 在 PySpark 中编码和组装多个功能

我有一个Python类，用于在Spark中加载和处理一些数据。在我需要做的各种事情中，我正在生成一个从Spark数据帧中的各个列派生的虚拟变量列表。我的问题是我不确定如何正确定义用户定义函数来完成我所需要的。我确实目前有一个方法，当映射到底层数据帧RDD时，解决了一半的问题(请记住，这是一个更大的data_processor类中的方法):defbuild_feature_arr(self,table):#thisdicthaskeysforallthecolumnsforwhichIneeddummycodingcategories={'gender':['1','2'],..}#th

PySpark python code 34 gender apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml

python - 通过 Spark 1.6 Dataframe 上的其他字段计算每个组的不同元素

我正在尝试在Spark数据框中按日期分组，并为每个组计算一列的唯一值:test.json{"name":"Yin","address":1111111,"date":20151122045510}{"name":"Yin","address":1111111,"date":20151122045501}{"name":"Yln","address":1111111,"date":20151122045500}{"name":"Yun","address":1111112,"date":20151122065832}{"name":"Yan","address":1111113,"dat

Dataframe python 34 address df_y apache-spark pyspark

156 157 158159160 161 162