草庐IT

apache-spark-2.3

全部标签

scala - Spark : what options can be passed with DataFrame. saveAsTable 或 DataFrameWriter.options?

开发人员和API文档均未包含有关可以在DataFrame.saveAsTable或DataFrameWriter.options中传递哪些选项的任何引用,它们会影响Hive的保存table。我希望在这个问题的答案中,我们可以汇总有助于Spark开发人员的信息,他们希望更好地控制Spark保存表的方式,并可能为改进Spark的文档提供基础。 最佳答案 您在任何地方都看不到options文档的原因是它们是特定于格式的,开发人员可以使用一组新的options继续创建自定义写入格式。但是,对于少数支持的格式,我列出了spark代码本身提到的

scala - 为什么我的 Spark 作业中有这么多任务?默认获取 200 个任务

我有一个spark作业,它从hdfs获取一个包含8条记录的文件,进行简单的聚合并将其保存回hdfs。我注意到执行此操作时有数百个任务。我也不确定为什么会有多个作业?我认为工作更像是一个Action发生的时候。我可以推测原因——但我的理解是,在这段代码中,它应该是一项工作,应该分解成多个阶段,而不是多项工作。为什么不把它分解成阶段,它怎么分解成工作?就200多个任务而言,由于数据量和节点数量微乎其微,因此当只有一个聚合和一对时,每行数据有25个任务是没有意义的的过滤器。为什么每个原子操作的每个分区不只有一个任务?这是相关的scala代码-importorg.apache.spark.sq

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配,收到 org.apache.hadoop.io.LongWritable

我正在尝试在java中运行map/reducer。以下是我的文件WordCount.javapackagecounter;publicclassWordCountextendsConfiguredimplementsTool{publicintrun(String[]arg0)throwsException{Configurationconf=newConfiguration();Jobjob=newJob(conf,"wordcount");job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.cl

hadoop - 如何让 shark/spark 清除缓存?

当我运行我的shark查询时,内存被储存在主内存中这是我的top命令结果。内存:总计74237344k,已使用70080492k,空闲4156852k,缓冲区399544k交换:总共4194288k,已使用480k,免费4193808k,缓存65965904k即使我杀死/停止shark、spark、hadoop进程,这也不会改变。目前,清除缓存的唯一方法是重启机器。有没有人遇到过这个问题?是spark/shark中的某些配置问题还是已知问题? 最佳答案 删除所有缓存数据:sqlContext.clearCache()来源:https

scala - 合并具有单个 header 的 Spark 输出 CSV 文件

我想在AWS中创建数据处理管道,最终将处理后的数据用于机器学习。我有一个Scala脚本,它从S3获取原始数据,对其进行处理并使用Spark-CSV将其写入HDFS或什至S3。如果我想使用AWSMachineLearning工具来训练预测模型,我想我可以使用多个文件作为输入。但如果我想使用其他东西,我认为最好是收到一个CSV输出文件。目前,由于我不想使用repartition(1)或coalesce(1)来提高性能,我使用了hadoopfs-getmerge用于手动测试,但由于它只是合并作业输出文件的内容,我遇到了一个小问题。我需要在数据文件中一行标题来训练预测模型。如果我对spark-

hadoop - 运行 Spark 作业时,YARN 不会基于公平份额抢占资源

我在重新平衡YARN上的ApacheSpark作业资源时遇到问题FairScheduled队列。对于测试,我已将Hadoop2.6(也尝试过2.7)配置为在MacOS上使用本地HDFS以伪分布式模式运行。对于作业提交,使用来自Spark'swebsite的“为Hadoop2.6及更高版本预构建Spark1.4”(也尝试过1.5)分发.在HadoopMapReduce作业上使用基本配置进行测试时,公平调度程序按预期工作:当集群的资源超过某个最大值时,计算公平份额,并根据这些计算抢占和平衡不同队列中作业的资源。对Spark作业运行相同的测试,在这种情况下,YARN正在为每个作业正确计算公平

hadoop - apache hadoop 版本 2.0 与 0.23

有太多的Hadoop版本和不同的发行版,这让我很困惑。我有几个问题。ApacheHadoop1.x来自0.20.205?ApacheHadoop2.0是0.22还是0.23? 最佳答案 根据这个blogpost来自Cloudera:Thereisnexttonofunctionaldifferencebetween0.20.205and1.0.Thisisjustarenumbering.Hadoop的Yarn网站状态:MapReducehasundergoneacompleteoverhaulinhadoop-0.23andwen

hadoop - 在 Spark 执行器节点上安装 Python 依赖项的最简单方法?

我知道您可以将单个文件作为PythonSpark程序的依赖项发送。但是成熟的库(例如numpy)呢?Spark是否有办法使用提供的包管理器(例如pip)来安装库依赖项?还是必须在执行Spark程序之前手动完成?如果答案是手动的,那么在大量分布式节点上同步库(安装路径、版本等)的“最佳实践”方法是什么? 最佳答案 实际上已经尝试过了,我认为我作为评论发布的链接并不能完全满足您对依赖项的要求。您非常合理地要求的是一种让Spark在安装依赖项方面与setuptools和pip很好地配合的方法。令我震惊的是,这在Spark中并没有得到更好的

hadoop - 退出代码和退出状态是否意味着 Spark ?

当在yarn上运行Spark时,我总是看到退出代码和退出状态:这里有一些:CoarseGrainedExecutorBackend:RECEIVEDSIGNAL15:SIGTERM...failed2timesduetoAMContainerforapplication_1431523563856_0001_000002exitedwithexitCode:10......Exitstatus:143.Diagnostics:Containerkilledonrequest...Containerexitedwithanon-zeroexitcode52:......Container

php - Apache/PHP 到 Nginx/Tornado/Python

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。我们的网站有实时更新的需求,我们正在考虑各种comet/long-polling解决方案。经过研究,我们决定将nginx作为4个tornado实例(托管在AmazonEC2上)的反向代理。我们目前正在使用传统的LAMP堆栈,并且已经用PHP编写了大量代码。我们愿意将我们的PHP代码转换为Python以更好地支持此解决方案。这是我的问题:假设是四核处理器,