草庐IT

hadoop-examples

全部标签

hadoop - 每次重新启动集群时都无法访问 HDFS 中的文件?

我刚刚配置了一个克隆hadoop版本2.7.3,我加载了我的数据大小从1g到20go,我使用这个数据(可以操作它们......)但是当我重新启动集群时这个数据没有不会被接受。我将收到此消息:警告:大约有xx个缺失block。请检查日志或运行fsck,这意味着您的HDFS安装中的某些block在任何事件DataNode上都没有单个副本。这是hdfs-site.xml:dfs.namenode.name.dirfile:///home/hduser/hadoop-2.7.3/namenodeNameNodedirectoryfornamespaceandtransactionlogssto

java - Hadoop:无法为您的平台加载 native hadoop 库。使用内置 java 类 > 在适用的情况下

我正在尝试使用此命令配置hadoop和格式化namenode:$hdfs名称节点格式但是,我一直收到此错误。我该如何解决?2017-06-2012:22:25,792WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable^[[A2017-06-2012:22:28,825WARNipc.Client:Failedtoconnecttoserver:localhost/127.0.0.1:9000:tryoncea

hadoop - 将 csv 数据插入复杂的配置单元表

Hive版本为0.13,Hive表说明如下:CREATETABLEtemp(customer_idint,sales_itemarray>,)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','COLLECTIONITEMSTERMINATEDBY'|';我的csv文件是:10,1|watch|300如何插入配置单元表...我试过了,输出如下:10[{"item_id":1,"item_name":null,"item_price":null}]不为item_name和item_price插入任何值。 最佳答案

hadoop - 如何通过Java代码知道TaskTracker是否在运行?

我正在尝试检查任务跟踪器是否正在服务器上运行。如何使用Java代码进行检查?我不需要命令行解决方案。是否有任何JavaAPI可以检查tasktracker的状态? 最佳答案 一种解决方案是为JMX指标JSON转储URL调用服务的HTTP端点。您可以使用所选语言的任何HTTP客户端库来执行此操作。您提到了TaskTracker,所以听起来您正在运行Hadoop1。这是指定HTTP端点的配置属性:mapred.task.tracker.http.address0.0.0.0:50060Thetasktrackerhttpserverad

java - 如何找到 hadoop 数据集中的所有键组合?

我的数据结构如下:A,23B,324235C,123D,213示例字数统计映射器具有以下映射函数签名:publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{核心问题:文本值只是输入文件中的一行,或一个键。如何一次访问所有key?似乎这些线(以及它们为以后减少而扩展)不知道其他输入线示例用法:我希望输出所有ID组合,这需要键“相互了解”ABACADBCBDCD编辑:朴素的方法/直觉我认为实现它的一种方法是使用映射器将每一行映射到相同的键,然后在缩减器中映射器的结果:C

Hadoop 文件名位置

美好的一天,我很少搜索Hadoop文件系统我正在寻找这个点:Hadoop文件名位置透明,还是位置独立?如何在Hadoop中完成复制,如何保持一致性?任何Hadoop专家都可以提供一些细节 最佳答案 Namenode将存储文件名、副本数、各自的blockID....Hadoop文件名是位置透明的,因为文件内容是分布式的。复制是根据文件的复制设置执行的(如果没有专门为文件设置,将采用全局设置)。复制基于Hadoop副本放置策略执行它将根据从数据节点收到的block报告更新元数据。如果没有从数据节点接收到更新,它认为该节点发生故障并将数据

hadoop - mapreduce 的多表输入

我正在考虑使用累积表作为输入来进行mapreduce。有没有一种方法可以将2个不同的表作为输入,就像addInputPath这样的多个文件输入一样?或者是否可以使用AccumuloInputFormat从文件中获取一个输入,而从表中获取另一个输入? 最佳答案 您可能想看一下AccumuloMultiTableInputFormat。Accumulo手册演示了如何使用它here.示例用法:job.setInputFormat(AccumuloInputFormat.class);AccumuloMultiTableInputForma

hadoop - Hortonworks 数据平台 : High load causes node restart

我已经使用HortonworksDataPlatform2.5设置了一个Hadoop集群。我正在使用1个主节点和5个从(工作)节点。每隔几天,我的一个(或多个)工作节点就会承受高负载,并且似乎会自动重启整个CentOS操作系统。重新启动后,Hadoop组件不再运行,必须通过Amabri管理UI手动重新启动。这里是“崩溃”节点的屏幕截图(大约4小时前在高负载值后重新启动):这是其他“健康”工作节点之一的屏幕截图(所有其他工作节点都具有相似的值):节点在5个工作节点之间交替崩溃,主节点似乎运行没有问题。什么会导致这个问题?这些高负载值从何而来? 最佳答案

Hadoop grep转储sql

我想使用ApacheHadoop解析大文件(每个~~20MB)。这些文件是postegresql转储(即主要是CREATETABLE和INSERT)。我只需要首先过滤掉不是CREATETABLE或INSERTINTO的任何内容。所以我决定使用带有^(CREATETABLE|INSERT).*;$模式的grepmapreduce(以CREATETABLE或INSERT开头并以“;”结尾的行)。我的问题是其中一些创建和插入需要多行(因为我猜模式真的很大)所以模式根本无法匹配它们(比如CREATETABLEtest(\n“id”...\n...“名称”...\n);)我想我可以编写一个map

hadoop - 使用接收器和 WAL 的 Spark Kafka 集成

我正在阅读下面的Databricks博客https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html在解释sparkkafka集成如何使用接收器和WAl工作的过程时,它说1.TheKafkadataiscontinuouslyreceivedbyKafkaReceiversrunningintheSparkworkers/executors.Thisusedthehigh-levelconsumerAPIofKafka.2.Thereceiveddatai