草庐IT

hadoop-worker

全部标签

hadoop - Sqoop 命令的顺序重要吗?

我输入Sqoop命令的顺序有什么关系吗?sqoopimport--connectjdbc:mysql://localhost/nba--drivercom.mysql.jdbc.Driver--usernameroot--tableplayer--as-textfile--fields-terminated-by'\t'--target-dir/user/Inayath/sqooptest-m1例如,对于上面的代码,如果我将--as-textfile与--target-dir交换会有影响吗? 最佳答案 不,没关系。有时它可能会给出语

hadoop - 集群的映射器估计

需要对Hadoop集群中特定作业的映射器估计进行一些说明。根据我的理解,映射器的数量取决于用于处理的输入拆分。但如果我们要对已经驻留在HDFS中的输入数据进行处理,情况就是如此。在这里,我需要澄清有关由SQOOP作业触发的映射器和缩减器。多氟溴联苯..如何根据RAM或输入拆分/block估算专用集群的映射器计数?(一般)如何根据输入大小估算用于将数据从RDBMS检索到HDFS的sqoop作业的映射器计数?(基于Sqoop)什么是核心CPU,它如何影响可以并行运行的映射器的数量?(一般)谢谢。 最佳答案 如何基于RAM或基于输入拆分/

hadoop - 在 ambari 安装选项中,我应该添加 Ambari-Server IP/主机名吗?

我是ambari的新手,我关注了hortronworks关于如何安装ambari的教程。我的问题是在安装选项的步骤中,我应该设置服务器和代理的主机名还是只设置代理?(因为当我只设置代理时它通过否则失败!)提前谢谢你 最佳答案 您必须提供所有节点/主机的IP。如果它在您的服务器节点上不起作用,那么主要是因为您的sshauthorized_key该步骤未在该节点上完成。在您的服务器节点(在.ssh目录中)执行catid_rsa.pub>>authorized_keys。(请勿触摸任何其他sshkey)尝试从同一节点通过ssh连接到您的服

hadoop 2.7.3 HDFS Namenode -format No Such FIle or Directory 错误

我正在尝试使用this在Lubuntu机器上安装Hadoop2.7.3|教程。我正处于使用namenode-format命令格式化HDFS的时间点。每当我这样做时,我都会收到此错误:HadoopBot@hadoopmaster-MS-7756:~/Hadoop/hadoop/bin$/home/HadoopBot/Hadoop/hadoop/bin/hdfsnamenode-format/home/HadoopBot/Hadoop/hadoop/bin/hdfs:line304:/home/HadoopBot/Hadoop/hadoop/bin/$/usr/lib/jvm/java-8

Hadoop - 有没有办法在作业之间共享自定义计数器?

我正在运行一个MapReduce工作流,该工作流当前包含2个链式MR任务。在第一个任务中,映射器写入自定义计数器。我希望在第二个任务中的reducer的setup()方法中读取这个计数器的值。当我在第二个任务中尝试读取计数器的值时,我得到了0的值。为清楚起见,每个任务都有自己的驱动程序代码,有自己的Configuration和Job。计数器在主驱动程序类中定义为staticenum,它负责链接任务(并启动EMR集群,而不是在单节点集群设置中本地运行工作流).我正在使用Hadoop2.7.3和Java8。 最佳答案 我看到至少3个选项

hadoop - MapReduce 作业无法与启用 Kerberos 的 CDH 集群上的 Hbase 对话

我正在编写一个MapReduce应用程序来访问启用了Kerberos的CDH集群上的Hbase数据。我的CDH版本是5.9.0,运行在3个节点上,Kerberos版本是1.10.1。现在,我面临一个问题,希望有人能提供帮助。我的代码:conf.set("hadoop.security.authentication","Kerberos");UserGroupInformation.setConfiguration(conf);UserGroupInformation.loginUserFromKeytab("jj@example.com","jj.keytab");HTabletabl

hadoop - 如何执行 pig 文件

我有一个简单的csv文件1234当我尝试以这种方式在其上运行一些代码时。grunt>SETjob.name'this_and_that';grunt>SETmapreduce.job.queuenameadhoc;grunt>SETdefault_parallel50;grunt>index_row=load'nmbr.csv'as(number:int);grunt>dumpindex_row;我得到了正确的结果。(1)(2)(3)(4)但是当我将代码保存在文件test.pig中时SETjob.name'this_and_that';SETmapreduce.job.queuenam

hadoop - 星火集群启动问题

我是spark的新手,正在尝试设置spark集群。我做了以下事情来设置和检查spark集群的状态,但不确定状态。我尝试在浏览器中查看master-ip:8081(8080,4040,4041),但没有看到任何结果。首先,我设置并启动了hadoop集群。JPSgives:2436SecondaryNameNode2708NodeManager2151NameNode5495Master2252DataNode2606ResourceManager5710Jps问题(有必要启动hadoop吗?)在Master/usr/local/spark/conf/slaveslocalhostslav

hadoop - 我能否确保新的 Hadoop 任务将在输入文件中失败任务停止的位置恢复?

我正在运行Hadoop2.7.2。假设有10个Hadoop任务正在运行,并且每个任务正在处理1个HDFS输入文本文件。假设其中一项任务失败,比如在读取HDFS输入文件file05的第566行时。默认情况下会发生什么?Hadoop的第二次任务尝试会在file05的第567行恢复吗?或者第二个任务尝试会从file05的第一行开始吗?根据用例,我可能想从失败处理停止的地方继续。或者,在不同的情况下,我可能想要重新开始处理该文件。我该怎么做才能确保Hadoop的第二次任务尝试在file05的第567行继续?我该怎么做才能确保第二个任务尝试从file05的第一行开始?

hadoop - hdfs 和 hive 有什么关系?

我有psudeo分布式hadoop环境,使用sqoop和hive进行数据导入和分析。我使用sqoop将数据从mysql导入到hive并且它工作正常,我在我的hive位置获取了数据,即/user/hive/warehouse/我可以看到hive中的数据表。我的疑问是:当我从mysql导入到hive(构建在hadoop之上)时,数据会存储在hadoop中吗?为什么它在我的hdfs中创建/user/hive/warehouse?Hive如何处理数据?如果我在mysql中更新数据,我可以使用sqoop增量导入来更新hdfs中的数据,但如果我直接使用hive导入,它将反射(reflect)在hi