task-manager

Hadoop MapReduce : How to ensure multiple tasks are executed in parallel among all nodes

我在HDFS中有一个任务列表文件，任务列表受CPU限制，将在带有HadoopMapReduce(仅限Map)的小型5节点集群中执行。例如，任务列表文件包含10行，每行对应一个任务命令。每个任务的执行都需要很长时间，所以在所有5个节点上并行执行列出的10个任务肯定更高效。但是由于任务列表文件很小，这个数据block很可能只位于一个节点上，所以根据数据局部性原则，只有该节点会执行所有这10个任务。有什么解决方案可以确保所有10个任务在所有5个节点上并行执行？最佳答案默认情况下，mapreduce将在每次拆分时运行一个映射器。拆分是一

MapReduce multiple 射器 section block hadoop

hadoop - Cloudera Manager Yarn 和 Spark UI 不工作

我已经安装了CDH5.5.2，它在ClouderaManager中看起来没问题，直到我单击SparkHistoryServerUI链接或YarnHistoryServerUI链接。那些不起作用。不工作，我的意思是他们根本无法从浏览器访问。我在文件spark-defaults.conf中添加了以下几行spark.eventLog.dir=hdfs://name-node-1:8020/user/spark/applicationHistoryspark.eventLog.enabled=truespark.yarn.historyServer.address=http://name-no

Cloudera Manager name-node node allow hadoop apache-spark hadoop-yarn cloudera-cdh

hadoop - 运行 sqoop 导入时出错 - ERROR manager.OracleManager : Failed to rollback transaction

我正在使用sqoop将数据从oracledb加载到hive规范:CDH-5.5.1Sqoop1.4.2初始化:exportSQOOP_HOME=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/sqoopexportHIVE_HOME=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/hiveexportHADOOP_CLASSPATH=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/sqoop/lib/ojdbc7.

入时 OracleManager apache java sqoop hadoop hive

hadoop - 亚马逊弹性 MapReduce : the number of launched map task

在MapReduce作业流程步骤的“系统日志”中，我看到以下内容:JobCountersLaunchedreducetasks=4Launchedmaptasks=39启动的maptask数是否包含失败的任务？我使用NLineInputFormat类作为输入格式来管理maptask的数量。但是，对于完全相同的输入，我偶尔会得到略有不同的数字，或者取决于实例的数量(10、15和20)。谁能告诉我为什么我看到启动的任务数量不同？最佳答案这很可能是推测性执行的启动。当Hadoop有可用资源时，它可能会选择同时运行同一任务的两次尝试。启

MapReduce launched section 推测的 hadoop

java - 即使在命令行上告诉为 -D mapred.reduce.tasks=0 后，hadoop reduce 任务仍在运行

我有一个MapReduce编程为publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{privatefinalstaticIntWritableuno=newIntWritable(1);privateIntWritablecitationCount=newIntWritable();publicvoidmap(Textkey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{citationCount.set(Integer.par

上告 reduce IntWritable JobClient java hadoop mapreduce

java - Cloudera Manager 4.0 字数统计示例

我安装了ClouderaManager并将2个节点连接到一个主节点。我正在尝试使用cloudera在此链接提供的教程运行wordcount程序:https://ccp.cloudera.com/display/SUPPORT/Hadoop+Tutorial#HadoopTutorial-InputsandOutputsCloudera说要编译我在命令提示符下使用nano创建的WordCount.java文件。我创建了目录Wordcount_Classes并将wordcount.java文件放在那里。我不知道是否应该将该目录移动到cloudera目录之一的某个位置以使java代码工作？或

Cloudera Manager WordCount class symbol java hadoop word-count

hadoop - AWS EC2 - Cloudera Manager - 停止实例

我已经使用cloudera管理器在AmazonEC2上设置了hadoop集群。Cloudera管理器创建了两个实例，并且都按预期工作。我试图通过AWS控制台停止cloudera创建的实例，但没有停止选项。我们只有“终止”和“重启”。我不想终止这些实例，因为我想重用这些实例。如何停止这些实例？最佳答案由于您的实例来自实例存储支持的AMI，您将只能重启和终止实例。查看“根设备”下的管理控制台以确认情况是否如此。要解决此问题，您可以从您的实例创建一个AMI，然后使用新的AMI重新启动您的环境，这样您就可以选择停止您的实例。

Cloudera Manager section stackoverflow 实例 hadoop amazon-ec2

hadoop - 通过 Cloudera Manager 4.5 安装 Hadoop 后 HDFS 仅指向本地文件系统

安装ClouderaManager4.5后，我发现它没有配置为指向正确的默认文件系统。如果我从其中一个tasktracker/datanode框运行haddopfs-ls/，我只会得到本地文件系统。但是当我在cloudera中检查core-site.xml时，我看到了这个设置，这似乎是正确的:fs.defaultFShdfs://hadoop-namenode1:8020知道我应该在这里寻找什么吗？davidparks21@hadoop-reducedslot2:~$hadoopfs-ls/Found22itemsdrwxr-xr-x-rootroot40962013-04-1213:

Cloudera Manager root drwxr-xr-x drwxr hadoop hdfs

xml - 改变 mapred.reduce.tasks

我应该在哪个文件中设置reducer的数量和设置mapred.reduce.tasks参数？我的conf文件夹中只有以下文件，没有一个有这个参数:ubuntu@group-3-vm1:~/conf$lscapacity-scheduler.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlcore-site.xmlhive-site.xmltez-site.xml 最佳答案所有Hadoop配置属性都分为以下几组。Hadoop-1.X.X:核心-core-site.xmlhdfs-hdfs-si

mapred reduce site xml section hadoop mapreduce hive hdfs

hadoop - 如何从 Cloudera Manager REST API 获取事件名称节点主机名？

我能够访问Cloudera管理器restAPI。curl-uusername:passwordhttp://cmhost:port/api/v10/clusters/clusterName如何找到事件的namenode和resourcemangarer主机名？我无法从API文档中找到任何相关内容。http://cloudera.github.io/cm_api/apidocs/v10/index.html注意:集群配置高可用最佳答案您需要使用此端点:http://cloudera.github.io/cm_api/apidocs

Cloudera Manager code section hadoop cloudera-manager

115 116 117118119 120 121