Hadoop2

hadoop - 从多个链接访问 hadoop 节点 web UI

我正在为hadoop的节点webui访问使用以下设置:dfs.namenode.http-address:127.0.0.1:50070通过它我只能从本地机器访问节点webui链接:http://127.0.0.1:50070有什么方法可以让我也可以从外部访问它吗？像这样说:http://:50070提前致谢!! 最佳答案您可以使用主机名或IP地址代替localhost/127.0.0.1。确保您可以从远程计算机ping主机名或ip。如果你能ping通它，那么你就可以访问webui。要ping一下打开命令/终端在远程机器上输入以下

java - Hadoop MultipleInputs，具有不同分隔符的TextInputFormat

如何最简单地运行多个不同的映射器类(使用MultipleInputs)，所有映射器类都使用相同的输入格式，但使用不同的输入分隔符？MultipleInput允许您添加多个映射器，每个映射器都有自己的输入格式:MultipleInputs.addInputPath(Jobjob,Pathpath,ClassinputFormatClass,ClassmapperClass)TextInputFormat输入中的输入分隔符是通过在作业配置中设置配置键textinputformat.record.delimiter来配置的。方便!但是，这意味着使用MultipleInput.addInput

TextInputFormat MultipleInputs 射器 code section java hadoop mapreduce

hadoop - 如何从 hadoop 集群中删除已删除的数据节点详细信息

我使用以下属性来减少死节点超时。Propertyname:dfs.heartbeat.recheck.intervalvalue:1但是当我从集群中删除数据节点时，此详细信息并未从hadoop集群中删除。它仅在该集群中处于死节点状态。请建议从hadoop集群中删除删除的数据节点详细信息的任何方法。最佳答案您可以使用以下HDFS命令单独查看活节点或死节点hdfsdfsadmin-report-livehdfsdfsadmin-report-dead您可以使用以下HDFS命令获取实时节点名称或任何其他特定详细信息hdfsdfsadm

hadoop 删除 section 死节 code

hadoop - 将 MS Access 数据 Sqooping 到 HDFS - Hadoop

我有一个用例，我需要将MicrosoftAccess数据导入/Sqoop到hdfs。是否有任何驱动程序可用于MS访问Sqoop数据。有没有人遇到过这样的情况。请留下您的评论和意见。最佳答案看起来不支持访问。Here是sqoop支持的数据库列表。最近的是MicrosoftSQL服务器here.主要要求是连接到数据库的jdbc驱动程序。关于hadoop-将MSAccess数据Sqooping到HDFS-Hadoop，我们在StackOverflow上找到一个类似的问题：

Sqooping hadoop section noreferrer noopener ms-access-2010 hdfs sqoop cloudera-cdh

hadoop - 我们必须将数据上传到哪个slave到hadoop集群

我们已经用2台机器设置了hadoop集群，我们正在尝试在我们的实时项目中实现集群，我们需要多节点集群中关于上传数据的信息，假设如果我有9个数据节点，哪个从节点我们需要上传数据。我可以选择将数据上传到2个从属节点吗，如果我将数据上传到hdfs，它是否会复制到另一个从属节点？正如我们观察到的，当前使用/tmp位置的hdfs如果/tmp已满，HDFS将使用哪个位置。最佳答案添加更多的集群的目的是为了扩大数据存储..您是否正在寻找安全的集群，向某些用户授予权限以将数据上传到HDFS？对If表示可以实现KERBEROS原则或者授权用户上传

hadoop 传到 section strong hdfs apache-hive

java - 使用 hadoop 的 Apache Tez 配置

这是我所做的简而言之:第1步:我已经在笔记本电脑(单节点)上成功配置了hadoop2.6并运行了一个示例mapreduce作业。第2步:我克隆了tez存储库并成功构建了0.8.0版本并将jar文件复制到HDFS并导出了所需的变量。我还在mapred-site.xml中将变量mapreduce.framework.name的值更改为yarn-tez。但是当我想运行一个tezorderedwordcount作业时，我得到了这个错误:15/07/0418:45:03INFOipc.Client:Retryingconnecttoserver:hostname/hostIP:57339.Alr

hadoop Apache section strong code java hadoop-yarn apache-tez

hadoop - Hive 不会写入 aws s3

我在hive中有一个外部表存储在我的hadoop集群上，我想将其内容移动到存储在Amazons3上的外部表中。所以我创建了一个s3支持的表，如下所示:CREATEEXTERNALTABLEIFNOTEXISTSexport.export_tableliketable_to_be_exportedROWFORMATSERDE...withSERDEPROPERTIES('fieldDelimiter'='|')STOREDASTEXTFILELOCATION's3a://bucket/folder';然后我运行:INSERTINTOexport.export_tableSELECT*FR

hadoop Hive java apache amazon-web-services amazon-s3

Java Elasticsearch-Hadoop 配置的节点都不可用

所以我正在运行一个Hadoop查询，该查询需要来自在AmazonEC2上运行的ElasticSearch索引中的字段的信息。问题是，我不断收到“配置的节点均不可用”错误。更令人沮丧的是，我几天前就开始工作了，然后由于缺少CPU操作，它在查询中间退出了。但我的搭档并不知道这一点，所以他试图弄清楚为什么它在查询中间失去连接的尝试似乎导致了这个问题。他不记得自己做了什么。我知道之前有人问过这个问题，但我确定我的集群名称是正确的，而且我在ES上运行的查询不应该导致超时，而且之前运行时也没有。此外，不应该有防火墙问题，因为我直接在EC2实例上运行程序。而且是使用yarn的伪分布式单节点集群。EC

Elasticsearch-Hadoop Elasticsearch section 34 fieldValue java hadoop amazon-ec2

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个Hive表。现在我需要编写一个工作流程，每天工作都会在某个位置搜索文件-/data/data_YYYY-mm-dd.csvlike/data/data_2015-07-07.csv/data/data_2015-07-08.csv...因此每天工作流都会自动选择文件名并将数据加载到Hive表(MyTable)中。我正在编写如下加载脚本-在路径中加载数据“/data/${filepath}”覆盖到表MyTable。现在，在运行与普通配置单元作业相同的同时，我可以将文件路径设置为data_2015-07-07.csv，但如何在Oozie协调器中执行此操作，以便它自动选择名称为日期的

中选 hadoop gt lt 34 hive oozie oozie-coordinator

hadoop - Hbase MuleSoft Cloudhub 连接

我必须将Cloudhub连接到Hbase。我尝试过社区版HBase连接器，但没有成功。然后我尝试使用Java代码，但再次失败。从HBase团队，他们只提供了主IP(10.99.X.X)和端口(2181)和用户名(hadoop)。我尝试过以下选项:通过Java代码:publicObjecttransformMessage(MuleMessagemessage,StringoutputEncoding)throwsTransformerException{尝试{Configurationconf=HBaseConfiguration.create();//conf.set("hbase.r

Cloudhub MuleSoft 34 logger info hadoop mule hbase

149 150 151152153 154 155