PySpark3_草庐IT

python - pyspark 方法只获取更新和新记录

我正在使用pyspark2.1下面是我的数据帧昨天数据DF1,Nagraj,Keshav,2017-11-2000:02:39.867000000,2017-11-2000:02:39.867000000,201711200600382,Raghu,HR,2017-11-2000:02:39.867000000,2017-11-2000:02:39.867000000,20171120060038今日数据DF1,Nagraj,K,2017-11-2100:02:39.867000000,2017-11-2100:02:39.8670000002,Raghu,HR,2017-11-210

在 PySpark 中使用 collect_list 时 Java 内存不足

我目前正在使用PySpark并在包含大约6亿条记录的表上运行查询。该表本身约为300gb。我的查询看起来像这样:selectf1,collect_list(struct(f2,f3))asfdatafromtablegroupby1目前，我收到此错误:#java.lang.OutOfMemoryError:Javaheapspace#-XX:OnOutOfMemoryError="kill-9%p"#Executing/bin/sh-c"kill-91010"...Killed另一件事是(f2,f3)元组的分布不均匀。一些f1可能有100k个这样的元组，而其他一些f1可能只有5个。我怀

collect_list PySpark code section java database hadoop hive

apache-spark - 我有一个很大的 hql 查询，我正在使用 pyspark sql 调用它。但是我收到错误，例如 Bad connect ack with firstBadLink error

我知道以前也有人问过这个问题，但我问这个问题是因为我不确定问题是否相同。问题是我使用的是spark-sql，我首先创建了一个表:sqlContext=HiveContext(sc)sqlContext.sql("""droptableifexiststest_table""")sqlContext.sql("""createexternaltabletest_table......)partitionedby('column_name'datatype)storedastextfilelocation'/home/..../test_table'""")Thistablehaslike

apache-spark firstBadLink apache scheduler spark hadoop hive pyspark apache-spark-sql

apache-spark - PySpark:如何在读取 Parquet 时读取分区列

我将数据存储在Parquet文件和按年、月、日分区的配置单元表中。因此，每个parquet文件都存储在/table_name/year/month/day/文件夹中。我只想读入部分分区的数据。我有如下各个分区的路径列表:paths_to_files=['hdfs://data/table_name/2018/10/29','hdfs://data/table_name/2018/10/30']然后尝试做类似的事情:df=sqlContext.read.format("parquet").load(paths_to_files)但是，我的数据不包含关于年月日的信息，因为这不是数据本身的一

apache-spark 在读 code section 配置单 hadoop pyspark apache-spark-sql parquet

hadoop - 如何使用 Pyspark - Hadoop HDP 2.6.6 将 hdfs 文件与 Wand 一起用于图像转换

我正在尝试将pdf文件转换为图像，然后使用pytesseract对文件进行ocr。我能够在linux本地路径中存在的文件上成功完成此操作，但没有使用hdfs路径。fromwand.imageimportImageaswi>>>wi(filename='hdfs://boboda02.boobo.com:8020/bda/clamsops/raw/personal_brella_test/09_29_2015_090902.pdf',resolution=300)Traceback(mostrecentcalllast):File"",line1,inFile"/home/sam/my_

Pyspark hadoop code section pre pdf image-processing wand

apache-spark - Pyspark - 按组添加行

在Pyspark2.2中，我实际上是在尝试按用户添加行。如果我的主Dataframe如下所示:main_list=[["a","bb",5],["d","cc",10],["d","bb",11]]main_pd=pd.DataFrame(main_list,columns=['user',"group",'value'])main_df=spark.createDataFrame(main_pd)main_df.show()+----+-----+-----+|user|group|value|+----+-----+-----+|a|bb|5||d|cc|10||d|bb|11|+

apache-spark Pyspark code group 34 dataframe hadoop apache-spark-sql

python - pyspark:找不到本地文件

我有以下简单的python代码:from__future__importprint_functionimportsysfromoperatorimportaddfrompysparkimportSparkContextif__name__=="__main__":print(len(sys.argv))iflen(sys.argv)",file=sys.stderr)exit(-1)sc=SparkContext(appName="PythonWordCount")lines=sc.textFile(sys.argv[2],1)counts=lines.flatMap(lambdax:

pyspark python DAGScheduler section apache hadoop apache-spark filesystems

python - 使用 pyspark 创建自动增量键值

我有rdd列表如下:['a','b','c']如何使用如下键值创建新的rdd:{0:'a',1:'b',2:'c'} 最佳答案这很简单:>>>data=['a','b','c']>>>distData=sc.parallelize(data)>>>distData.collect()['a','b','c']>>>distData=distData.zipWithIndex()>>>distData.collect()[('a',0),('b',1),('c',2)]>>>distData=distData.map(lambda(

pyspark python 39 section distData hadoop apache-spark

apache-spark - SAP Vora 2.1 是否需要 Hadoop/Spark 集群？并且可以使用 PySpark 吗？

根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf，需要运行Hadoop/Spark集群和运行Kubernetis集群。现在我的问题是，为什么需要这个Hadoop/Spark集群？因为SAPVora可以从HDFS、WebHDFS等读取。如果您有一个Spark作业，您是否可以在Spark集群上运行它，如果它需要来自HANA/Vora的数据，它可以访问它吗？还是Vora也使用Spark集群来处理数据？因为现在看起来Spark可以使用Vora但Vora不能使用Spark(VoraUI工具，如SQL编辑器等)。因为你可以附加到Vora上的Zeppe

apache-spark PySpark Spark Vora section hadoop sap

apache-spark - Pyspark - 如何拆分具有 Datetime 类型结构值的列？

我有以下代码创建窗口并在窗口中聚合值。df.groupBy(window("time","30minutes"))\.agg(func.countDistinct("customer_numbers")窗口列(包含时间段的列)现在是一个具有两个日期时间的结构。[datetime1,datetime2].我的数据框是这样的:windowcustomer_numbers[2018-02-04:10:00:00,2018-02-04:10:30:00]10[2018-02-04:10:30:00,2018-02-04:11:00:00]15我希望它看起来像这样startEndcustomer

apache-spark Datetime code section pre hadoop pyspark apache-spark-sql pyspark-sql