草庐IT

hadoop-release

全部标签

hadoop - 如何从 hadoop 集群中删除已删除的数据节点详细信息

我使用以下属性来减少死节点超时。Propertyname:dfs.heartbeat.recheck.intervalvalue:1但是当我从集群中删除数据节点时,此详细信息并未从hadoop集群中删除。它仅在该集群中处于死节点状态。请建议从hadoop集群中删除删除的数据节点详细信息的任何方法。 最佳答案 您可以使用以下HDFS命令单独查看活节点或死节点hdfsdfsadmin-report-livehdfsdfsadmin-report-dead您可以使用以下HDFS命令获取实时节点名称或任何其他特定详细信息hdfsdfsadm

hadoop - 将 MS Access 数据 Sqooping 到 HDFS - Hadoop

我有一个用例,我需要将MicrosoftAccess数据导入/Sqoop到hdfs。是否有任何驱动程序可用于MS访问Sqoop数据。有没有人遇到过这样的情况。请留下您的评论和意见。 最佳答案 看起来不支持访问。Here是sqoop支持的数据库列表。最近的是MicrosoftSQL服务器here.主要要求是连接到数据库的jdbc驱动程序。 关于hadoop-将MSAccess数据Sqooping到HDFS-Hadoop,我们在StackOverflow上找到一个类似的问题:

hadoop - 我们必须将数据上传到哪个slave到hadoop集群

我们已经用2台机器设置了hadoop集群,我们正在尝试在我们的实时项目中实现集群,我们需要多节点集群中关于上传数据的信息,假设如果我有9个数据节点,哪个从节点我们需要上传数据。我可以选择将数据上传到2个从属节点吗,如果我将数据上传到hdfs,它是否会复制到另一个从属节点?正如我们观察到的,当前使用/tmp位置的hdfs如果/tmp已满,HDFS将使用哪个位置。 最佳答案 添加更多的集群的目的是为了扩大数据存储..您是否正在寻找安全的集群,向某些用户授予权限以将数据上传到HDFS?对If表示可以实现KERBEROS原则或者授权用户上传

java - 使用 hadoop 的 Apache Tez 配置

这是我所做的简而言之:第1步:我已经在笔记本电脑(单节点)上成功配置了hadoop2.6并运行了一个示例mapreduce作业。第2步:我克隆了tez存储库并成功构建了0.8.0版本并将jar文件复制到HDFS并导出了所需的变量。我还在mapred-site.xml中将变量mapreduce.framework.name的值更改为yarn-tez。但是当我想运行一个tezorderedwordcount作业时,我得到了这个错误:15/07/0418:45:03INFOipc.Client:Retryingconnecttoserver:hostname/hostIP:57339.Alr

hadoop - Hive 不会写入 aws s3

我在hive中有一个外部表存储在我的hadoop集群上,我想将其内容移动到存储在Amazons3上的外部表中。所以我创建了一个s3支持的表,如下所示:CREATEEXTERNALTABLEIFNOTEXISTSexport.export_tableliketable_to_be_exportedROWFORMATSERDE...withSERDEPROPERTIES('fieldDelimiter'='|')STOREDASTEXTFILELOCATION's3a://bucket/folder';然后我运行:INSERTINTOexport.export_tableSELECT*FR

Java Elasticsearch-Hadoop 配置的节点都不可用

所以我正在运行一个Hadoop查询,该查询需要来自在AmazonEC2上运行的ElasticSearch索引中的字段的信息。问题是,我不断收到“配置的节点均不可用”错误。更令人沮丧的是,我几天前就开始工作了,然后由于缺少CPU操作,它在查询中间退出了。但我的搭档并不知道这一点,所以他试图弄清楚为什么它在查询中间失去连接的尝试似乎导致了这个问题。他不记得自己做了什么。我知道之前有人问过这个问题,但我确定我的集群名称是正确的,而且我在ES上运行的查询不应该导致超时,而且之前运行时也没有。此外,不应该有防火墙问题,因为我直接在EC2实例上运行程序。而且是使用yarn的伪分布式单节点集群。EC

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个Hive表。现在我需要编写一个工作流程,每天工作都会在某个位置搜索文件-/data/data_YYYY-mm-dd.csvlike/data/data_2015-07-07.csv/data/data_2015-07-08.csv...因此每天工作流都会自动选择文件名并将数据加载到Hive表(MyTable)中。我正在编写如下加载脚本-在路径中加载数据“/data/${filepath}”覆盖到表MyTable。现在,在运行与普通配置单元作业相同的同时,我可以将文件路径设置为data_2015-07-07.csv,但如何在Oozie协调器中执行此操作,以便它自动选择名称为日期的

hadoop - Hbase MuleSoft Cloudhub 连接

我必须将Cloudhub连接到Hbase。我尝试过社区版HBase连接器,但没有成功。然后我尝试使用Java代码,但再次失败。从HBase团队,他们只提供了主IP(10.99.X.X)和端口(2181)和用户名(hadoop)。我尝试过以下选项:通过Java代码:publicObjecttransformMessage(MuleMessagemessage,StringoutputEncoding)throwsTransformerException{尝试{Configurationconf=HBaseConfiguration.create();//conf.set("hbase.r

hadoop - Oozie 仅在指定时间范围内运行作业

我需要从RDBMS系统中读取600TB的数据,而且我必须在从午夜12点到早上7点的特定时间范围内执行此操作。由于无法在一天内摄取全部数据,因此需要分批执行。oozie是否可以在早上7点之前终止作业并在第二天重新启动失败的作业。 最佳答案 Oozie好像没有这个功能。我会尝试使用oozie-cli和cron终止并开始工作。 关于hadoop-Oozie仅在指定时间范围内运行作业,我们在StackOverflow上找到一个类似的问题: https://stacko

hadoop - 在 reducer 函数中选择 max key

这个问题在这里已经有了答案:Findingbiggestvalueforkey(1个回答)关闭7年前。我对reducer的理解是,它从sort和shuffle的中间o/p文件中处理一对键值对。我不知道如何访问具有排序和混洗键值对的中间文件。一旦无法访问中间文件,就无法在reducer模块中编写代码来选择最大的key。我不知道如何对一次接收一对K、V的reducer进行编程,以仅将最大的键及其对应的值打印到最终输出文件。假设这是来自映射器的中间文件,它也经过了排序和混洗..1个2是4这是什么我希望reducer在最终输出文件中只打印“4thiswhat”。由于reducer的内存中没有整