pyspark-dataframes

linux - 在 Linux 上正确配置 PySpark 和 Anaconda3

以下是我到目前为止采取的步骤:我安装了Anaconda3以及目录$HOME/anaconda3/bin中的所有内容。我进入$HOME/anaconda3/bin并运行命令./condainstall-cconda-forgepyspark。成功了。我没有做任何其他事情。更具体地说，我的.bashrc中没有设置变量这里有一些重要的细节:我在一个运行Hadoop的分布式集群上，所以在我的主文件夹之外可能还有其他我尚未发现但可能需要的目录。我也没有管理员权限。JupyterNotebook运行良好。这是我的目标:目标。按照添加变量或配置一些文件的方式做一些事情，以便我可以在JupyterNo

python - 使用 pyspark 将数据框中的列调用到函数中

我正在尝试将一个列调用到一个函数中。当我尝试以下方式时它的工作df=sqlContext.sql("selectcol1fromsample")defsamp(col1):ifcol1==21:return'A'else:return'B'udfsamp=udf(samp,StringType())df.withColumn("cate",udfsamp("col1")).show()但是当我通过在单独的srcsamp.py文件中定义来调用函数并执行以下操作时fromsrcsampimportsampdf=sqlContext.sql("selectcol1fromsample")sa

pyspark python code section col1 hadoop apache-spark dataframe

python - pyspark 方法只获取更新和新记录

我正在使用pyspark2.1下面是我的数据帧昨天数据DF1,Nagraj,Keshav,2017-11-2000:02:39.867000000,2017-11-2000:02:39.867000000,201711200600382,Raghu,HR,2017-11-2000:02:39.867000000,2017-11-2000:02:39.867000000,20171120060038今日数据DF1,Nagraj,K,2017-11-2100:02:39.867000000,2017-11-2100:02:39.8670000002,Raghu,HR,2017-11-210

新记录 pyspark 39.867000000 867000000 39 python hadoop

在 PySpark 中使用 collect_list 时 Java 内存不足

我目前正在使用PySpark并在包含大约6亿条记录的表上运行查询。该表本身约为300gb。我的查询看起来像这样:selectf1,collect_list(struct(f2,f3))asfdatafromtablegroupby1目前，我收到此错误:#java.lang.OutOfMemoryError:Javaheapspace#-XX:OnOutOfMemoryError="kill-9%p"#Executing/bin/sh-c"kill-91010"...Killed另一件事是(f2,f3)元组的分布不均匀。一些f1可能有100k个这样的元组，而其他一些f1可能只有5个。我怀

collect_list PySpark code section java database hadoop hive

apache-spark - 我有一个很大的 hql 查询，我正在使用 pyspark sql 调用它。但是我收到错误，例如 Bad connect ack with firstBadLink error

我知道以前也有人问过这个问题，但我问这个问题是因为我不确定问题是否相同。问题是我使用的是spark-sql，我首先创建了一个表:sqlContext=HiveContext(sc)sqlContext.sql("""droptableifexiststest_table""")sqlContext.sql("""createexternaltabletest_table......)partitionedby('column_name'datatype)storedastextfilelocation'/home/..../test_table'""")Thistablehaslike

apache-spark firstBadLink apache scheduler spark hadoop hive pyspark apache-spark-sql

apache-spark - PySpark:如何在读取 Parquet 时读取分区列

我将数据存储在Parquet文件和按年、月、日分区的配置单元表中。因此，每个parquet文件都存储在/table_name/year/month/day/文件夹中。我只想读入部分分区的数据。我有如下各个分区的路径列表:paths_to_files=['hdfs://data/table_name/2018/10/29','hdfs://data/table_name/2018/10/30']然后尝试做类似的事情:df=sqlContext.read.format("parquet").load(paths_to_files)但是，我的数据不包含关于年月日的信息，因为这不是数据本身的一

apache-spark 在读 code section 配置单 hadoop pyspark apache-spark-sql parquet

hadoop - 如何使用 Pyspark - Hadoop HDP 2.6.6 将 hdfs 文件与 Wand 一起用于图像转换

我正在尝试将pdf文件转换为图像，然后使用pytesseract对文件进行ocr。我能够在linux本地路径中存在的文件上成功完成此操作，但没有使用hdfs路径。fromwand.imageimportImageaswi>>>wi(filename='hdfs://boboda02.boobo.com:8020/bda/clamsops/raw/personal_brella_test/09_29_2015_090902.pdf',resolution=300)Traceback(mostrecentcalllast):File"",line1,inFile"/home/sam/my_

Pyspark hadoop code section pre pdf image-processing wand

apache-spark - Pyspark - 按组添加行

在Pyspark2.2中，我实际上是在尝试按用户添加行。如果我的主Dataframe如下所示:main_list=[["a","bb",5],["d","cc",10],["d","bb",11]]main_pd=pd.DataFrame(main_list,columns=['user',"group",'value'])main_df=spark.createDataFrame(main_pd)main_df.show()+----+-----+-----+|user|group|value|+----+-----+-----+|a|bb|5||d|cc|10||d|bb|11|+

apache-spark Pyspark code group 34 dataframe hadoop apache-spark-sql

scala - Spark : split only one column in dataframe and keep remaining columns as it is

我正在读取spark数据框中的文件。在第一列中，我将得到两个用“_”连接的值。我需要将第一列拆分为两列，并保持其余列不变。我将Scala与Spark结合使用例如:col1col2col3a_1xyzabcb_1lmnopq我需要有新的DF作为:col1_1col1_2col2col3a1xyzabcb1lmnopq只有一列需要拆分成两列。我尝试使用带有df.select的拆分函数，但我需要为剩余的列编写选择并考虑具有100列的不同文件，我想对所有文件使用可重用代码。最佳答案你可以这样做:importspark.implicits

dataframe remaining section 34 col scala apache-spark hadoop

hadoop - Apache Spark DataFrame 是否为每次处理从数据库加载数据，或者除非另有说明，否则它是否使用相同的数据？

我们有一个用例，我们需要搜索满足特定条件的特定记录。我们需要识别记录的这些条件有多种。我们计划使用apacheSparkDataframes。ApacheSpark数据帧是否为我们计划执行的每个搜索从db加载表数据，或者它是否在spark集群节点之间加载和分发表数据一次，然后在这些节点上运行搜索条件，直到它被明确告知加载数据来自数据库？最佳答案如果您使用.cache()或.persist()命令创建数据帧，那么它会尝试将数据帧持久保存在内存中。如果您不使用.cache创建它，那么它会按需从源数据集中读取数据。如果没有足够的可用内

另有 DataFrame section Spark 数据 hadoop apache-spark apache-spark-sql

96 97 9899100 101 102