spark-submit

apache-spark - native 文件系统上的 Spark 行为

我们正在尝试在没有Hadoop和HDFS等分布式存储的情况下在我们的项目中运行Spark。Spark安装在具有10个内核和16GBRAM的单个节点上，并且该节点不属于任何集群。假设Spark驱动程序占用2个内核，其余内核在执行时由执行程序(每个2个)消耗。如果我们将存储在Spark本地磁盘中的一个大CSV文件(大小为1GB)处理为RDD，并将其重新分区为4个不同的分区，执行程序是否会并行处理每个分区？如果我们不将RDD重新分区为4个差异分区，执行者会做什么？如果不使用HDFS，我们会失去分布式计算和并行性的能力吗？最佳答案 Spa

apache-spark - Spark S3A写省略上传部分无故障

我使用Spark2.4.0和Hadoop2.7，hadoop-aws2.7.5将数据集写入S3A上的Parquet文件。偶尔会丢失一个文件部分；即部分00003在这里:>awss3lsmy-bucket/folder/2019-02-2813:07:210_SUCCESS2019-02-2813:06:5879428651part-00000-5789ebf5-b55d-4715-8bb5-dfc5c4e4b999-c000.snappy.parquet2019-02-2813:06:5979586172part-00001-5789ebf5-b55d-4715-8bb5-dfc5c4

无故 apache-spark apache java parquet hadoop

apache-spark - 在 Yarn 上运行 Spark 直线

我正在使用直线执行hql查询。该作业似乎没有出现在HDP2.6上SparkHistory服务器的资源管理器中。如何让它运行在Yarn上？谢谢最佳答案 Beeline是一个ApacheHive客户端，与Spark无关，因此您不会在Spark历史服务器中看到查询。不过，查询应该在YARN中运行，如果您转到YARN资源管理器WebUI(如果您有权访问Ambari，应该在快速链接下)，您会在那里看到它们。关于apache-spark-在Yarn上运行Spark直线，我们在StackOverf

apache-spark apache section Spark 中运 hadoop apache-spark-sql hadoop-yarn

apache-spark - 使用 Airflow dag run 创建 EMR 集群，任务完成后 EMR 将终止

我有Airflow作业，它们在EMR集群上运行良好。我需要的是，假设我有4个Airflow作业需要EMR集群，假设20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群，一旦作业完成，它就会终止创建的EMR集群。最佳答案当然，那将是对资源最有效的利用。让我警告你:这里面有很多细节；我会尽力列出尽可能多的内容。我鼓励您添加自己的综合答案，列出您遇到的任何问题和解决方法(一旦您解决了这个问题)关于集群创建/终止对于集群的创建和终止，您有EmrCreateJobFlowOperator和EmrTerminateJobFl

apache-spark EMR code noreferrer airflow hadoop amazon-emr

apache-spark - 将 6000 亿条记录从 1 个配置单元表加载到另一个

我在1个数据库中有一个配置单元外部表，其中包含大约6000亿条记录和100列。我需要将数据原样复制到其他数据库中的同一张表中。我正在尝试编写一个spark代码，但它需要永远。对我如何编写代码有什么建议吗？我是spark新手! 最佳答案不要复制，让它留在原处。在另一个数据库中创建外部表，其位置指向数据位置。USEYOUR_DATABASE;CREATEEXTERNALTABLEabc...LOCATION'hdfs://your/data';如有必要，使用MSCKREPAIRTABLEabc;或ALTERTABLEabcRECOVE

配置单 apache-spark section code hadoop hive

scala - 使用临时凭证从 AWS 外部通过 spark 从 s3 读取

我正在尝试通过IntelliJ从我的笔记本电脑读取s3中的文件，这样我就可以更轻松地开发我的spark作业。textFileRDD代码在EMR集群内的Zeppelin中工作，但当我在本地尝试时却不行。在Zeppelin中，我不需要设置任何spark上下文，大概是因为Zeppelin实例在AWS环境中，它为我做了这件事。我编写了代码来创建临时AWS凭证(使用我的IAM用户key)，以便我可以向spark上下文提供sessiontoken。访问key和secretkey也来自临时凭证。valsqlContext=sparkSession.sqlContextsqlContext.spark

scala spark sqlContext hadoopConfiguration sparkContext apache-spark hadoop amazon-s3 sbt

apache-spark - 如何在 NiFi 中从 GetFilesProcessor 读取文件

下面是我的流程:GetFile>ExecuteSparkInteractive>PutFile我想从ExecuteSparkInteractive处理器中的GetFile处理器读取文件，应用一些转换并将其放在某个位置。下面是我的流程我在spark处理器的code部分写了sparkscala代码:valsc1=sc.textFile("local_path")sc1.foreach(println)流程中没有任何事情发生。那么如何使用GetFile处理器读取spark处理器中的文件。第二部分:我尝试了以下流程只是为了练习:ExecuteScript>PutFile>LogMessage我

GetFilesProcessor 何在 code section ExecuteSparkInteractive apache-spark hadoop bigdata apache-nifi

apache-spark - 从 Spark 访问 Openstack Swift - SwiftAuthenticationFailedException

我正尝试从Spark2.4访问OpenstackSwift，但出现错误。org.apache.hadoop.fs.swift.exceptions.SwiftAuthenticationFailedException:Authenticateastenant'78axxxxxxxxxxxxxxxxxxxxxxxxxxxx'PasswordCredentials{username='xxxxxxxxxxxx'}sc.hadoopConfiguration.set(s"fs.swift.service.ovh.auth.url","https://auth.cloud.ovh.net/v3

SwiftAuthenticationFailedExceptio apache-spark 34 swift service hadoop openstack openstack-swift

apache-spark - Pyspark - 按组添加行

在Pyspark2.2中，我实际上是在尝试按用户添加行。如果我的主Dataframe如下所示:main_list=[["a","bb",5],["d","cc",10],["d","bb",11]]main_pd=pd.DataFrame(main_list,columns=['user',"group",'value'])main_df=spark.createDataFrame(main_pd)main_df.show()+----+-----+-----+|user|group|value|+----+-----+-----+|a|bb|5||d|cc|10||d|bb|11|+

apache-spark Pyspark code group 34 dataframe hadoop apache-spark-sql

scala - Spark : split only one column in dataframe and keep remaining columns as it is

我正在读取spark数据框中的文件。在第一列中，我将得到两个用“_”连接的值。我需要将第一列拆分为两列，并保持其余列不变。我将Scala与Spark结合使用例如:col1col2col3a_1xyzabcb_1lmnopq我需要有新的DF作为:col1_1col1_2col2col3a1xyzabcb1lmnopq只有一列需要拆分成两列。我尝试使用带有df.select的拆分函数，但我需要为剩余的列编写选择并考虑具有100列的不同文件，我想对所有文件使用可重用代码。最佳答案你可以这样做:importspark.implicits

dataframe remaining section 34 col scala apache-spark hadoop

192 193 194195196 197 198