spark-graphx

java - Spark 异常 : Task failed while writing rows

我正在读取文本文件并将它们转换为parquet文件。我正在使用Spark代码来做这件事。但是当我尝试运行代码时出现以下异常org.apache.spark.SparkException:Jobabortedduetostagefailure:Task2instage1.0failed4times,mostrecentfailure:Losttask2.3instage1.0(TID9,XXXX.XXX.XXX.local):org.apache.spark.SparkException:Taskfailedwhilewritingrows.atorg.apache.spark.sql.

Hadoop 纱 : How to limit dynamic self allocation of resources with Spark?

在我们在Yarn下运行的Hadoop集群中，我们遇到了一个问题，即一些“更聪明”的人能够通过在pySparkJupyter笔记本中配置Spark作业来消耗大得多的资源block，例如:conf=(SparkConf().setAppName("name").setMaster("yarn-client").set("spark.executor.instances","1000").set("spark.executor.memory","64g"))sc=SparkContext(conf=conf)这导致了这些人从字面上排挤其他不那么“聪明”的人的情况。有没有办法禁止用户自行分配资

allocation resources capacity value gt hadoop apache-spark pyspark hadoop-yarn

hadoop - Apache Spark : In SparkSql, 是易受 SQL 注入(inject)攻击的 sql

这个问题在这里已经有了答案:SparkSQLsecurityconsiderations(1个回答)关闭5年前。场景:假设Hive中有一个表，使用下面的ApacheSpark中的SparkSql查询它，其中表名作为参数传递并连接到查询.在非分布式系统的情况下，我对SQL注入(inject)漏洞有基本的了解，并且在JDBC的上下文中了解createStatement/preparedStatement在这种情况下的用法。但是sparksql这个场景呢，这段代码有漏洞吗？有什么见解吗？defmain(args:Array[String]){valsconf=newSparkConf().s

SparkSql hadoop section notice strong apache-spark hive apache-spark-sql bigdata

hadoop - 如何将 Spark ML Lib 模型保存/导出到 PMML？

我想使用SparkMLLib训练模型，然后能够以与平台无关的格式导出模型。本质上，我想分离模型的创建和使用方式。我想要这种解耦的原因是我可以在其他项目中部署模型。例如:使用该模型在独立的独立程序中执行预测，该程序不依赖于Spark进行评估。将模型与现有项目(例如OpenScoring)结合使用，并提供可以使用该模型的API。将现有模型加载回Spark以进行高吞吐量预测。有人用SparkMLLib做过类似的事情吗？最佳答案 Spark1.4版本现在支持这个。参见latestdocumentation.并非所有型号都可用(请参阅支持(

hadoop Spark section noreferrer deployment machine-learning apache-spark modeling

hadoop - Spark/Hadoop - 无法使用服务器端加密保存到 s3

我正在运行AWSEMR集群来运行spark作业。为了使用s3存储桶，hadoop配置设置了访问key、secretkey、enableServerSideEncryption和用于加密的算法。请看下面的代码valhadoopConf=sc.hadoopConfiguration;hadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("fs.s3.awsAccessKeyId","xxx")hadoopConf.set("fs.s3.awsSecretAc

hadoop code section hadoopConf encryption amazon-s3 apache-spark emr

hadoop - Windows 上的 Spark - winutils 到底是什么，我们为什么需要它？

我很好奇!据我所知，HDFS需要数据节点进程才能运行，这就是它只在服务器上运行的原因。Spark可以在本地运行，但需要winutils.exe，它是Hadoop的一个组件。但它到底做了什么？为什么我不能在Windows上运行Hadoop，但是我可以运行基于Hadoop构建的Spark？最佳答案我至少知道一种用法，它用于在Windows操作系统上运行shell命令。你可以在org.apache.hadoop.util.Shell中找到它，其他模块依赖于这个类并使用它的方法，例如getGetPermissionCommand()方法

winutils Windows section WINUTILS_FAILURE hadoop apache-spark

scala - Spark : SAXParseException while writing to parquet on s3

我正在尝试读取一些json，推断模式，然后将其作为parquet再次写出到s3(s3a)。出于某种原因，在运行的写入部分进行了大约三分之一的过程中，spark总是出错并出现以下错误。我找不到任何明显的问题原因:它不是内存不足；没有长时间的GC暂停。各个执行者的日志中似乎没有任何其他错误消息。该脚本在我拥有的另一组数据上运行良好，它具有非常相似的结构，但小了几个数量级。我正在运行spark2.0.1-hadoop-2.7并使用FileOutputCommitter。算法版本似乎并不重要。编辑:对于格式错误的json或损坏的文件，这似乎不是问题。我已经解压缩并单独读取每个文件，没有错误。这

SAXParseException parquet apache spark org scala hadoop apache-spark amazon-s3

hadoop - mapreduce split和spark partition的区别

我想问一下，在使用Hadoop/MapReduce和Spark时，数据分区是否有任何显着差异？它们都在HDFS(TextInputFormat)上工作，因此理论上应该是相同的。是否存在数据分区程序可能不同的情况？任何见解都会对我的研究非常有帮助。谢谢最佳答案 IsanysignificantdifferenceindatapartitioningwhenworkingwithHadoop/mapreduceandSpark?Spark支持所有hadoopI/O格式，因为它使用相同的HadoopInputFormatAPI以及它自己

mapreduce partition strong code section hadoop apache-spark hdfs

hadoop - spark + hadoop 数据本地化

我得到了一个文件名的RDD，所以是一个RDD[String]。我通过并行化文件名列表(hdfs中的文件)来获得它。现在我映射这个rdd，我的代码使用FileSystem.open(path)打开一个hadoop流。然后我处理它。当我运行我的任务时，我使用sparkUI/Stages，我看到所有任务的“LocalityLevel”=“PROCESS_LOCAL”。我认为spark不可能以我运行任务的方式(在4个数据节点的集群上)实现数据局部性，这怎么可能？最佳答案 WhenFileSystem.open(path)getsexecu

hadoop spark strong section PROCESS_LOCAL apache-spark hdfs

java - 有没有办法改变 Spark 中 RDD 的复制因子？

据我了解，集群中的RDD中的数据存在多份副本，这样当某个节点出现故障时，程序可以恢复。然而，在失败的可能性可以忽略不计的情况下，在RDD中拥有多个数据副本在内存方面的成本很高。那么，我的问题是，Spark中是否有一个参数可以用来降低RDD的复制因子？最佳答案首先，请注意Spark不会自动缓存所有RDD，这仅仅是因为应用程序可能会创建许多RDD，并且并非所有这些都将被重用。您必须对它们调用.persist()或.cache()。你可以设置你想要持久化一个RDD的存储级别myRDD.persist(StorageLevel.MEMO

Spark java code section StorageLevel scala hadoop apache-spark hadoop-yarn

79 80 818283 84 85