草庐IT

yarn-daemon

全部标签

hadoop - 当查看在 yarn 上运行的已完成 spark 作业的日志时重定向到容器的日志服务器

我在yarn上运行spark。我的spark版本是2.1.1,hadoop版本是apachehadoop2.7.3。当spark作业以集群模式在yarn上运行时,我可以通过stdout/stderr链接查看Executor的日志,如http://hadoop-slave1:8042/node/containerlogs/container_1500432603585_0148_01_000001/hadoop/stderr?start=-4096但是当作业完成时,通过stdout/stderr链接查看Executor的日志将得到类似的错误页面Redirectingtologserver

hadoop - 如何使用 Dask 在 yarn 上运行并行化的 python 作业?

我有几个关于将Dask与Hadoop/Yarn结合使用的问题。1)如何将Dask连接到Hadoop/YARN并并行化作业?当我尝试使用时:fromdask.distributedimportClientclient=Client('Mynamenode:50070')它导致错误:CommClosedError:in:Streamisclosed:whiletryingtocallremotemethod'identity'我应该传递名称节点或数据节点的地址吗?我可以改用Zookeeper吗?2)如何使用Dask和HDFS3从HDFS读取数据?当我尝试使用以下方式读取文件时:import

hadoop - spark-shell --master yarn 卡住

我通过Homebrew安装了Hadoop和Spark$brewlist--versions|grepsparkapache-spark2.2.0$brewlist--versions|grephadoophadoop2.8.12.8.2hdfs我使用的是Hadoop2.8.2。我关注了thispost配置Hadoop。另外,关注thispost将spark.yarn.archive配置为:spark.yarn.archivehdfs://localhost:9000/user/panc25/spark-jars.zip以下是我在.bash_profile中的Hadoop/Spark相关

apache-spark - Spark : YARN throws NoSuchMethodError on NettyMemoryMetrics

为了让Spark(spark-2.3.0-bin-without-hadoop)在HDFS上与YARN一起工作,我将Hadoop降级到hadoop-2.7.6以解决依赖问题。到目前为止,HDFS和YARN都没有问题。当我提交一个SparkJar时它崩溃了,我得到以下Stacktrace:Exceptioninthread"main"java.lang.NoSuchMethodError:io.netty.buffer.PooledByteBufAllocator.metric()Lio/netty/buffer/PooledByteBufAllocatorMetric;atorg.ap

apache-spark - 如何使用 APPLICATION ID 提交 YARN 作业

我想知道YARNCLI是否提供了使用上一次执行生成的APPLICATION_ID重新提交YARN应用程序的可能性。例子:/opt/mapr/spark/spark-2.1.0/bin/spark-submit--num-executors5--executor-memory2G--executor-cores2--masteryarn--deploy-modecluster--files/opt/mapr/hive/hive-2.1/conf/hive-site.xml--classcom.cisco.sdp.cdx.processing.DenormSchedulerJSONDeno

python - 使用 yarn 比较器在 MapReduce Python 中进行字数统计排序

我想解决字数统计问题,想得到按照文件中出现频率倒序排序的结果。以下是我为此目的编写的四个文件(2个映射器和2个缩减器,因为一个MapReduce作业无法解决此问题):1)映射器1.pyimportsysimportrereload(sys)sys.setdefaultencoding('utf-8')#requiredtoconverttounicodeforlineinsys.stdin:try:article_id,text=unicode(line.strip()).split('\t',1)exceptValueErrorase:continuewords=re.split("

hadoop - Apache Hadoop Windows 10 - Datanode、Resource Manager 和 Yarn 在启动时立即关闭

我已经按照教程为Windows设置了ApacheHadoop,可以找到here.我现在遇到Datanode、ResourceManager和Yarncmd窗口的问题,显示打开后所有3秒都关闭,只有Namenode继续运行。这是我到目前为止尝试过的过程:以管理员身份运行CMD使用命令start-all.cmd(这会打开Namenode、Datanode、Yarn和Resourcemanagercmd窗口)Datanode、Yarn和Resourcemanager几乎都在启动后立即给出关闭消息SHUTDOWN_MSG:正在thood-alienware/...关闭ResourceManag

apache-spark - Pyspark 在 yarn 集群模式下将文件写入本地

我正在尝试运行我的pyspark代码。我的目标目录是本地目录。我提交spark-submit命令的用户是super用户,拥有从hdfs读取文件并将文件写入本地的所有权限。作业正在运行,没有任何错误,但没有创建输出目录或文件。我在我的spark代码中将HADOOP_USER_NAME设置为super用户以避免权限问题。谁能帮忙 最佳答案 如果您在YARN集群模式下运行,那么YARNApplicationMaster实际上是在一个节点上运行,因此将在节点本地写出。如果你找到它是哪个节点,那么你应该在那里找到你的输出目录和文件。

hadoop - yarn hadoop 2.4.0 : info message: ipc. 客户端重试连接到服务器

我已经搜索了两天的解决方案。但没有任何效果。首先,我是整个hadoop/yarn/hdfs主题的新手,想配置一个小型集群。每次运行mapreduce-examples.jar中的示例时,上面的消息都不会出现有时teragen有效,有时无效。在某些情况下整个工作失败,在其他情况下工作成功完成。有时作业会失败,而不会打印上面的消息。14/06/0815:42:46INFOipc.Client:Retryingconnecttoserver:FQDN-HOSTNAME/XXX.XX.XX.XXX:53022.Alreadytried2time(s);retrypolicyisRetryUpT

hadoop - 如何在 Hadoop 2 + YARN 中计算并发#mappers 和#reducers?

我搜索了一段时间,发现使用hadoop2+yarn的MapReduce集群每个节点具有以下数量的并发映射和减少:并发映射#=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb并发减少#=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb但是,我设置了一个包含10台机器的集群,配置如下:'yarn_site'=>{'yarn.nodemanager.resource.cpu-vcores'=>'32','yarn.nodemanager.resou