我已经安装了CDH5.5.2,它在ClouderaManager中看起来没问题,直到我单击SparkHistoryServerUI链接或YarnHistoryServerUI链接。那些不起作用。不工作,我的意思是他们根本无法从浏览器访问。我在文件spark-defaults.conf中添加了以下几行spark.eventLog.dir=hdfs://name-node-1:8020/user/spark/applicationHistoryspark.eventLog.enabled=truespark.yarn.historyServer.address=http://name-no
我正在下面的spark上执行此查询,但它不起作用。当到达第13阶段时,它会阻塞。并且磁盘空间在增加的同时在同一阶段被阻塞什么都不做,然后当磁盘变满时。查询有问题,您看到spark查询有什么问题了吗?首先我在配置单元中创建一个View:createviewq2_min_ps_supplycostasselectp_partkeyasmin_p_partkey,min(ps_supplycost)asmin_ps_supplycostfrompart,partsupp,supplier,nation,regionwherep_partkey=ps_partkeyands_suppkey=p
我正在使用apache-spark我的spark作业每天创建10k个小文件(~50MB)对于HDFS中的命名节点来说太过分了我尝试使用coalesce来减少输出文件的数量,但会减慢工作速度。谁能建议我应该使用什么? 最佳答案 我们有一个类似的案例。我们每小时运行一次批处理作业并合并所有新文件。您可以使用另一个spark作业或任何其他最适合您的框架来执行此操作。通过这种方式,您可以完全分离这2个任务,并从每个任务中获得最佳性能。 关于hadoop-Apachespark-许多输出文件,我们
我正在尝试将我的模型保存为从sparkml库创建的对象。但是,它给我一个错误:线程“main”中的异常java.lang.NoSuchMethodError:org.apache.spark.ml.PipelineModel.save(Ljava/lang/String;)V在com.sf.prediction$.main(prediction.scala:61)在com.sf.prediction.main(prediction.scala)在sun.reflect.NativeMethodAccessorImpl.invoke0(native方法)在sun.reflect.Nati
我知道通过spark-mllib我们可以通过save()方法将朴素贝叶斯模型保存到hdfs。但是我们尝试使用spark-mlnaivebayes保存到hdfs然后它给出错误。错误的FS:hdfs://localhost:8020/pa/model/nb,应为:file:///我正在使用spark-1.6.0和hadoop2.7。 最佳答案 我在保存spark-ml模型时也遇到了问题-似乎没有一种直接的方法可以做到这一点。尝试像这样保存它-如果您遇到路径错误,请尝试将其保存到tmp,如下所示。sc.parallelize(Seq(NB
正如标题所说,这就是我现在的目标。我需要从目录加载一堆非文本文件从中提取通常的文件信息(创建日期、作者、类型……那些)创建一个类型的序列文件将新提取的信息放入.seq文件的Key中将它们全部存储在一个hdfs目录中。我使用spark的原因是为了可伸缩性(要处理数以千计的文件,我将有一个工作集群可用)并且因为我正在考虑在图像目录上实现一个SParkStreaming接收器,以便文件将被自动处理。这是我的初始代码:JavaPairRDDimageRDD=jsc.wholeTextFiles("file:///home/cloudera/Pictures/");imageRDD.mapToP
我在hadoop集群上使用yarn运行ApacheSpark应用程序。程序完成后,有没有办法检查该程序的CPU使用情况。基本上,我想要以1或2秒为间隔的分析日志。 最佳答案 您可以使用ResourceManager的restAPIhttps://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html#Cluster_Applications_API基本上,您需要实现一个REST客户端,每1或2秒查询一次ResourMana
我有一个由2台机器组成的集群,我正在尝试使用YARN集群管理器提交一个spark作业。基于hadoop2.6.2构建的vanillaSpark1.6.2普通Hadoop2.7.2我可以使用独立的集群管理器成功运行map-reduce作业和spark作业。但是当我用YARN运行它时,我得到了一个错误。对如何让它发挥作用有什么建议吗?如何启用更详细的日志记录?错误信息绝对不清楚为什么在hadoop/logs/userlogs/applicationXXX下没有创建日志文件?反问:IMO:hadoop日志记录和诊断不是很好。这是为什么?Hadoop似乎是一个成熟的产品。下面是输出:mike@
我正在将一些map-reduce代码迁移到Spark中,并且在构造Iterable以在函数中返回时遇到问题。在MR代码中,我有一个按键分组的reduce函数,然后(使用multipleOutputs)将迭代值并使用write(在多个输出中,但这并不重要)像这样的代码(简化):reduce(Keykey,Iterablevalues){//...somecodefor(Textxml:values){multipleOutputs.write(key,val,directory);}}但是,在Spark中,我已经翻译了一个map,并将其归约为以下序列:mapToPair->groupBy
当我用我的spark程序做一个fatjar然后我启动它时,我得到了这个错误:java-jar-myApp.jar[args]当我在Eclipse中运行我的应用程序时,它运行得非常好。这是我的POM:UTF-81.71.7org.apache.sparkspark-streaming-kafka_2.101.5.0org.apache.kafkakafka_2.100.9.0.1org.apache.sparkspark-streaming_2.101.6.1com.google.code.gsongson2.6.2org.apache.hadoophadoop-hdfs2.6.0org