$Spark

hadoop - 在 Yarn 集群上运行 Spark 作业

我想在HadoopYARN集群模式下运行我的spark作业，我正在使用以下命令:spark-submit--masteryarn-cluster--driver-memory1g--executor-memory1g--executor-cores1--classcom.dc.analysis.jobs.AggregationJobsparkanalitic.jarparam1param2param3我在下面收到错误，请提示出了什么问题，命令是否正确。我正在使用CDH5.3.1。Diagnostics:Applicationapplication_1424284032717_0066f

apache-spark - 如何读取 Spark 中的嵌套集合

我有一个Parquet表，其中一列是,array>可以使用LATERALVIEW语法在Hive中针对此表运行查询。如何将此表读入RDD，更重要的是如何在Spark中过滤、映射此嵌套集合？在Spark文档中找不到对此的任何引用。提前感谢您提供任何信息!附言。我觉得在桌面上提供一些统计数据可能会有所帮助。主表中的列数~600。行数~200m。嵌套集合中的“列”数~10。嵌套集合中的平均记录数约为35。最佳答案嵌套集合没有什么神奇之处。Spark将以相同的方式处理RDD[(String,String)]和RDD[(String,Seq

apache-spark apache code outers scala apache-spark-sql nested parquet lateral-join

apache-spark - 如何在没有 hive-site.xml 的情况下将 Spark SQL 连接到远程 Hive Metastore(通过节俭协议(protocol))？

我将HiveContext与SparkSQL一起使用，并且我正在尝试连接到远程Hive元存储，设置Hive元存储的唯一方法是在类路径中包含hive-site.xml(或将其复制到/etc/spark/conf/).有没有办法在不包含hive-site.xml的情况下以编程方式在java代码中设置此参数？如果是这样，要使用什么Spark配置？最佳答案对于Spark1.x，您可以设置:System.setProperty("hive.metastore.uris","thrift://METASTORE:9083");finalSp

节俭何在 section 34 HiveContext apache-spark hive apache-spark-sql

scala - Spark : what options can be passed with DataFrame. saveAsTable 或 DataFrameWriter.options？

开发人员和API文档均未包含有关可以在DataFrame.saveAsTable或DataFrameWriter.options中传递哪些选项的任何引用，它们会影响Hive的保存table。我希望在这个问题的答案中，我们可以汇总有助于Spark开发人员的信息，他们希望更好地控制Spark保存表的方式，并可能为改进Spark的文档提供基础。最佳答案您在任何地方都看不到options文档的原因是它们是特定于格式的，开发人员可以使用一组新的options继续创建自定义写入格式。但是，对于少数支持的格式，我列出了spark代码本身提到的

options DataFrameWriter apache scala spark hadoop apache-spark hive parquet

scala - 为什么我的 Spark 作业中有这么多任务？默认获取 200 个任务

我有一个spark作业，它从hdfs获取一个包含8条记录的文件，进行简单的聚合并将其保存回hdfs。我注意到执行此操作时有数百个任务。我也不确定为什么会有多个作业？我认为工作更像是一个Action发生的时候。我可以推测原因——但我的理解是，在这段代码中，它应该是一项工作，应该分解成多个阶段，而不是多项工作。为什么不把它分解成阶段，它怎么分解成工作？就200多个任务而言，由于数据量和节点数量微乎其微，因此当只有一个聚合和一对时，每行数据有25个任务是没有意义的的过滤器。为什么每个原子操作的每个分区不只有一个任务？这是相关的scala代码-importorg.apache.spark.sq

scala Spark image noreferrer noopener apache-spark hadoop apache-spark-sql task

hadoop - 如何让 shark/spark 清除缓存？

当我运行我的shark查询时，内存被储存在主内存中这是我的top命令结果。内存:总计74237344k，已使用70080492k，空闲4156852k，缓冲区399544k交换:总共4194288k，已使用480k，免费4193808k，缓存65965904k即使我杀死/停止shark、spark、hadoop进程，这也不会改变。目前，清除缓存的唯一方法是重启机器。有没有人遇到过这个问题？是spark/shark中的某些配置问题还是已知问题？最佳答案删除所有缓存数据:sqlContext.clearCache()来源:https

hadoop shark section spark apache hive apache-spark shark-sql

scala - 合并具有单个 header 的 Spark 输出 CSV 文件

我想在AWS中创建数据处理管道，最终将处理后的数据用于机器学习。我有一个Scala脚本，它从S3获取原始数据，对其进行处理并使用Spark-CSV将其写入HDFS或什至S3。如果我想使用AWSMachineLearning工具来训练预测模型，我想我可以使用多个文件作为输入。但如果我想使用其他东西，我认为最好是收到一个CSV输出文件。目前，由于我不想使用repartition(1)或coalesce(1)来提高性能，我使用了hadoopfs-getmerge用于手动测试，但由于它只是合并作业输出文件的内容，我遇到了一个小问题。我需要在数据文件中一行标题来训练预测模型。如果我对spark-

header scala strong hadoop apache csv apache-spark

hadoop - 运行 Spark 作业时，YARN 不会基于公平份额抢占资源

我在重新平衡YARN上的ApacheSpark作业资源时遇到问题FairScheduled队列。对于测试，我已将Hadoop2.6(也尝试过2.7)配置为在MacOS上使用本地HDFS以伪分布式模式运行。对于作业提交，使用来自Spark'swebsite的“为Hadoop2.6及更高版本预构建Spark1.4”(也尝试过1.5)分发.在HadoopMapReduce作业上使用基本配置进行测试时，公平调度程序按预期工作:当集群的资源超过某个最大值时，计算公平份额，并根据这些计算抢占和平衡不同队列中作业的资源。对Spark作业运行相同的测试，在这种情况下，YARN正在为每个作业正确计算公平

抢占 hadoop gt lt 34 apache-spark hadoop-yarn job-scheduling

hadoop - 在 Spark 执行器节点上安装 Python 依赖项的最简单方法？

我知道您可以将单个文件作为PythonSpark程序的依赖项发送。但是成熟的库(例如numpy)呢？Spark是否有办法使用提供的包管理器(例如pip)来安装库依赖项？还是必须在执行Spark程序之前手动完成？如果答案是手动的，那么在大量分布式节点上同步库(安装路径、版本等)的“最佳实践”方法是什么？最佳答案实际上已经尝试过了，我认为我作为评论发布的链接并不能完全满足您对依赖项的要求。您非常合理地要求的是一种让Spark在安装依赖项方面与setuptools和pip很好地配合的方法。令我震惊的是，这在Spark中并没有得到更好的

hadoop Python Spark 的 code dependencies apache-spark shared-libraries distributed-computing

hadoop - 退出代码和退出状态是否意味着 Spark ？

当在yarn上运行Spark时，我总是看到退出代码和退出状态:这里有一些:CoarseGrainedExecutorBackend:RECEIVEDSIGNAL15:SIGTERM...failed2timesduetoAMContainerforapplication_1431523563856_0001_000002exitedwithexitCode:10......Exitstatus:143.Diagnostics:Containerkilledonrequest...Containerexitedwithanon-zeroexitcode52:......Container

意味着 hadoop strong code br apache-spark pyspark spark-dataframe yarn

83 84 858687 88 89