草庐IT

hadoop-examples

全部标签

hadoop - 根据列的子集过滤掉重复的行

我有一些看起来像这样的数据:ID,DateTime,Category,SubCategoryX01,2014-02-13T12:36:14,Clothes,TshirtsX01,2014-02-13T12:37:16,Clothes,TshirtsX01,2014-02-13T12:38:33,Shoes,RunningX02,2014-02-13T12:39:23,Shoes,RunningX02,2014-02-13T12:40:42,Books,FictionX02,2014-02-13T12:41:04,Books,Fiction我想做的是像这样及时保留每个数据点的一个实例(我

bash - 在 bash 脚本中使用 expr 时 hadoop 流式传输出错

我正在使用Hadoop流处理工作。我的映射器是用bash编写的。它使用job_id。mapred_job_id=`echo"$mapred_job_id"|awk-F"_"'{print$NF}'`它工作正常(为调试目的启动一个愚蠢的wordcound映射器操作)直到我有以下行导致作业崩溃:mapred_job_id=`expr$mapred_job_id\*2`错误是:INFOmapreduce.Job:TaskId:attempt_1432766867252_0019_m_000007_0,Status:FAILEDError:java.lang.RuntimeException:

java - 如何让 hadoop 忽略\n 输入文件中的字符?

我正在使用Hadoop的mapreduce函数编写倒排索引创建器。我的输入文件中的某些行已将字符\n作为实际字符写入其中(不是ASCII10,而是两个实际字符“\”和“n”)。出于某种我不明白的原因,这似乎导致map函数将我的行分成两行。这是我的一些文件中的一些示例行。32155:WyldwoodRadio:OntheMoveWILLbeginonFridayMay1st,asoriginallyplanned!\n\nWehadsomecomplicationswith...http://t.co/g8STpuHn5Q5:RT@immoumita:#SaveJalSatyagrahi

Hadoop DataNode 内存消耗和 GC 行为

最近,我们的集群(CDH5.3.1)遇到了问题,这体现在NameNode和DataNode中,GC周期从30秒到几分钟不等。JVM设置仍然是默认设置,但鉴于我们的集群同时增长到3400万个block,这种行为是可以解释的。对于NN,对堆大小的简单调整和对GC设置的其他小调整(例如新生代大小、幸存者比率)再次让我们获得了可预测的短GC暂停。然而,对于DN,我们仍然遭受周期性的长时间GC暂停。我观察到异常长的GC暂停每6小时发生一次(FullGC)。现在我假设Cloudera将blockreport间隔dfs.blockreport.intervalMsec的默认值设置为6小时促成了这种模

hadoop - HBASE 安装 - 获取 ZOOKEPER 相关错误

我可以转到hbase提示符,但是当我尝试创建表时出现以下错误:ERRORzookeeper.ZooKeeperWatcher:hconnectionReceivedunexpectedKeeperException,re-throwingexceptionorg.apache.zookeeper.KeeperException$ConnectionLossException:KeeperErrorCode=ConnectionLossfor/hbase/masteratorg.apache.zookeeper.KeeperException.create(KeeperException

hadoop - 混淆 hadoop、giraph 和 twister

我正在研究大数据,我的项目由具有文本数据的图表组成。我必须在一个项目本身中计算顶点之间的相似性、跳数概率、连接组件的数量、页面排名向量和随机游走。我在hadoop中实现了它们,但我认为它需要更多时间(图形有2500个节点、4000个边、600个连接的组件需要25分钟)所以什么是实现这些的最佳选择,apachehadoop或apachegiraph或apachetwister? 最佳答案 查找连接组件、页面排名计算和随机游走是迭代算法的示例。传统的Map-Reduce编程模型不是迭代算法(特别是图形算法)的好选择。原因是在map-re

hadoop - 在 Crontab 上安排 Hive 查询

任何人都可以帮助我在Crontab中安排一项工作,该工作将在特定时间执行一个简单的Hive查询并以文本/日志文件的形式提供给我输出。我创建了一个批处理脚本来执行选择查询,但在Crontab中执行时出现错误(“未找到Hive命令”)。但是,相同的脚本通过shell运行良好。下面是我的脚本:ip.sh#!/bin/bashecho"StartingofJob"cd/home/hadoop/work/hive/binhive-e'select*frommytest.empl'echo"Scriptendshere"定时任务表:10****/home/hadoop/work/ip.sh>>/h

java - 错误: org. apache.hadoop.mapred.InvalidInputException:输入路径不存在

我是nutch和solr集成方面的新手。我想抓取新的url,所以我在ubuntu中安装了solr4.6.0版和nutch1.6版。首先我从一些配置开始,但我仍然得到这个错误:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:File:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetchInputpathdoesnotexist:file:/home/cloudera/apache-nutch-1.6/bin/2015052903

java hadoop : FileReader VS InputStreamReader

我想在hadoophdfs上使用我的java类,现在我必须重写我的函数。问题是,如果我使用InputStreamReader,我的应用会读取错误的值。这是我的代码(所以它的工作,我想使用未注释的代码部分):publicstaticGeoTimeDataCenter[]readCentersArrayFromFile(intiteration){Propertiespro=newProperties();try{pro.load(GeoTimeDataHelper.class.getResourceAsStream("/config.properties"));}catch(Except

hadoop - 无法登录 http ://127. 0.0.1:8080/to ambari

安装HDP2.2.4后,我无法在127.0.0.1:8080登录ambari。尝试使用默认用户名/密码作为admin/admin并一次又一次地弹出。我在尝试运行之前启用了ambari 最佳答案 默认的用户名/密码是maria_dev/maria_dev。请按照officialsite中给出的演练进行操作.您还可以使用ssh进入系统:sshroot@127.0.0.1-p2222在这种情况下,密码将是hadoop。 关于hadoop-无法登录http://127.0.0.1:8080/to