草庐IT

spark-submit

全部标签

hadoop - 如何获取基于 yarn 的 Spark 应用程序的 CPU 使用情况

我在hadoop集群上使用yarn运行ApacheSpark应用程序。程序完成后,有没有办法检查该程序的CPU使用情况。基本上,我想要以1或2秒为间隔的分析日志。 最佳答案 您可以使用ResourceManager的restAPIhttps://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html#Cluster_Applications_API基本上,您需要实现一个REST客户端,每1或2秒查询一次ResourMana

hadoop - Spark 1.6.2 & yarn : diagnostics: Application failed 2 times due to AM Container for exited with exitCode: -1

我有一个由2台机器组成的集群,我正在尝试使用YARN集群管理器提交一个spark作业。基于hadoop2.6.2构建的vanillaSpark1.6.2普通Hadoop2.7.2我可以使用独立的集群管理器成功运行map-reduce作业和spark作业。但是当我用YARN运行它时,我得到了一个错误。对如何让它发挥作用有什么建议吗?如何启用更详细的日志记录?错误信息绝对不清楚为什么在hadoop/logs/userlogs/applicationXXX下没有创建日志文件?反问:IMO:hadoop日志记录和诊断不是很好。这是为什么?Hadoop似乎是一个成熟的产品。下面是输出:mike@

java - Spark flatMap/减少 : How to scale and avoid OutOfMemory?

我正在将一些map-reduce代码迁移到Spark中,并且在构造Iterable以在函数中返回时遇到问题。在MR代码中,我有一个按键分组的reduce函数,然后(使用multipleOutputs)将迭代值并使用write(在多个输出中,但这并不重要)像这样的代码(简化):reduce(Keykey,Iterablevalues){//...somecodefor(Textxml:values){multipleOutputs.write(key,val,directory);}}但是,在Spark中,我已经翻译了一个map,并将其归约为以下序列:mapToPair->groupBy

java - 方案 : hdfs when building fat jar in Spark; works fine in Eclipse mars 没有文件系统

当我用我的spark程序做一个fatjar然后我启动它时,我得到了这个错误:java-jar-myApp.jar[args]当我在Eclipse中运行我的应用程序时,它运行得非常好。这是我的POM:UTF-81.71.7org.apache.sparkspark-streaming-kafka_2.101.5.0org.apache.kafkakafka_2.100.9.0.1org.apache.sparkspark-streaming_2.101.6.1com.google.code.gsongson2.6.2org.apache.hadoophadoop-hdfs2.6.0org

hadoop - 启动 hive 和 spark 时未发现合适的驱动程序错误

当我尝试启动hive或spark时出现此错误。16/07/1316:55:12ERRORSchema:Failedinitialisingdatabase.Nosuitabledriverfoundforjdbc:;derby;databaseName=metastore_db;create=trueorg.datanucleus.exceptions.NucleusDataStoreException:Nosuitabledriverfoundforjdbc:;derby;databaseName=metastore_db;create=true我无法解决它。有人可以帮忙吗?

hadoop - Spark Avro 到 Parquet Writer

问题:对象不可序列化能否请您看看如何解决这个问题。能够像正确打印一样正确阅读它。但是在将记录写入Parquet时对象不可序列化causedby:java.io.NotSerializableException:parquet.avro.AvroParquetWriterSerializationstack:-objectnotserializable(class:parquet.avro.AvroParquetWriter,value:parquet.avro.AvroParquetWriter@658e7ead)请查看并告诉我最好的方法是什么。代码:将Avro记录转换为Parquet

python-2.7 - 如何从 Spark 的 id 列表中找到包含 id 的所有数据?

现在我有一个低效的方法:ids=[...]matched=[]foridinids:d=data.where(data.id==id)d=d.take(1)matched.append(d[0][3])我想知道如何才能更快地做到这一点?数据包含4列,其中第四列包含ID。-更新-大概是这样?sqlContext=SQLContext(sc)sqlContext.registerDataFrameAsTable(data,"data")s=','.join(str(e)foreinids)q="SELECT*FROMdataWHEREidIN("+s+")")sqlContext.sql(

hadoop - 在 spark 上执行 hive 查询 - java.lang.NoClassDefFoundError org/apache/hive/spark/client/Job

我试图让HiveonSpark正常工作,但它似乎没有加载hive-exec-2.0.1.jar。我可以让Hiveonmr工作得很好。我正在使用Hive2.0.1和Spark1.6.1。遵循了HiveonSpark教程。我在hive-site.xml上设置了所有必要的属性,将sparkassemblyjar链接到hivelib文件夹中,我已经设置了所有环境变量(SPARK_HOME等)。我启动了Sparkmaster和worker。还以DEBUG级别启动了hiveserver2。尝试运行一个简单的查询“selectcount(*)...”,据我在配置单元日志中看到的那样,它执行带有所有必

scala - Spark 多个数据帧保存

我有一个spark作业,它创建一个数据框,我将它保存到HDFS。我想做的是将该数据框的一个子集保存到另一个地方,但我想在这方面表现出色。我拥有的唯一转换是保存本身……spark作业的所有其他代码元素都是一个操作。我不缓存数据框。我担心从旧数据框创建新数据框的放置操作会再次经历所有原始数据框转换。例如,我有这样的东西:valdf=hiveContext.read.json("hdfs://HOSTNAME:PORT/user/spark/data/in/*")valdf2=df.withColumn("new_column",some_udf("old_column")).drop("o

hadoop - Spark 簇是什么意思?

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭6年前。Improvethisquestion我在我的本地机器上使用spark使用python进行分析。最近听到“sparkcluster”这个词,我想知道它到底是什么?它只是在某些机器集群上运行的Spark吗?没有Hadoop系统怎么在集群上使用呢?可能吗?你能描述一下吗?