草庐IT

HADOOP_PREFIX

全部标签

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE;对于下表:行数:~80亿列数:40,各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较,以查看系统配置是否正确。如果我错过了一些重要的事情,我深表歉意,我是Hive和Hadoop的新手。此外,如果机器数量也按比例增加,执行时间是否会与行数成线性比例? 最佳答案 提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

Hadoop 组合器 : Using same reducer code as combiner in a word count mapreduce program?

这个问题特别来自认证机构的实践测试,对我来说没有意义。谁能帮忙?问题:映射器发出键和值对的字数问题,其中每个词作为键,文字1作为值发出。然后,reducer为它接收到的每个文字“1”递增一个计数器。qn是“我们可以使用现有的reducer代码作为组合器吗”?正确答案描述为。"is",我们可以,因为求和任务是可交换和结合的。但我的理解是,答案应该是“否”,因为这两种情况会导致两个不同的答案。而且我相信只有在我们采用另一种方法将计数器增加它接收到的值而不是“为它接收到的每个文字1增加一个计数器”时,才能使用相同的reducer和combiner代码。举个例子让我们先考虑一个没有组合器的假设

java - 使用单节点配置运行 Hadoop

我在单节点上使用hadoop。我是hadoop的新手,所以请多多包涵。我使用教程“http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/”和“https://sites.google.com/site/jianpengxu/tutorials/hadoop-setup”来安装hadoop。命令jps显示hadoop节点已启动并正在运行。当我尝试运行wordcount时(例如)"bin/hadoopjarhadoop-0.20.2-examples.jarwordc

mongodb - 如何使用 mongo-hadoop 从 Pig 上的 BSON 文件加载数组?

我正在尝试使用com.mongodb.hadoop.pig.BSONLoader(https://github.com/mongodb/mongo-hadoop/blob/master/pig/README.md)将数据从MongoDBBSON文件加载到Pig中,但我遇到了困难。MongoDB上的数据包括可变大小的数组,我不确定如何将其加载到pig中(作为元组?)。这是来自MongoDB的示例记录:{"_id":{"$oid":"52fbbca6e4b029a79cd17ff7"},"field":"value","variableSizeArray":["value1","value

hadoop - 执行 hadoop namenode -format

我正在尝试在hadoop上工作,因此我使用:-Java1.6Eclipse欧罗巴3.3.2安装Cygwinhadoop0.19.1当我使用命令时发生错误:-$hadoop-*/bin/hadoopnamenode-format/home/user/hadoop-0.19.1/bin/../conf/hadoop-env.sh:line2:$'\r':commandnotfound/home/user/hadoop-0.19.1/bin/../conf/hadoop-env.sh:line7:$'\r':commandnotfound/home/user/hadoop-0.19.1/bi

hadoop - eclipse wordcount 程序中找不到类异常

我正在从eclipse运行一个字数统计程序,它说找不到类。我导出了与jar文件相同的程序并从命令行执行,它工作正常。错误堆栈跟踪14/02/1423:46:16WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.14/02/1423:46:16WARNmapred.JobClient:Nojobjarfileset.Userclassesmaynotbefound.SeeJobConf(Class)orJobConf#se

hadoop - 在 HDFS 中移动文件的最佳实践或工具

我们正在map-reduce上进行POC以计算我们应用程序的模块使用情况。应用程序在位于单独盒子上的J2EE容器上运行,hadoop安装在单独的盒子上,我们需要将日志文件从应用程序容器盒子移动到hadoop盒子。下面提到的是一些需要帮助/建议的查询。有什么工具/框架可以将日志文件从多个位置移动到HDFS?什么是最佳实践?如何运行移动文件的作业?移动到HDFS应该是cron作业还是文件大小触发器? 最佳答案 您需要ApacheFlume。Flume是一种流行的标准工具,用于将日志文件移动到HadoopHDFS中。它可以作为cron作业

java - hadoop 作业因奇怪的异常而失败

错误信息:java.io.IOException:Typemismatchinvaluefrommap:expectedorg.apache.hadoop.io.Text,recievedorg.apache.hadoop.io.LongWritableatorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:918)atorg.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:512)atmain.java.co

hadoop - 如何 ?使用 ambari 自动安装 hdp 以进行夜间构建 (CI)

我正在寻找如何安装hortonworks(hdp)集群的说明,使用ambari作为静默安装。我在ambari-server的手册中看到有这样做的选项,但它使用了默认值。amabri-serversetup-s(安装程序静默运行。接受所有默认提示值。)我该怎么做?我该如何更改默认值?我需要它的原因是为了我们的夜间构建。 最佳答案 这不是一个非常优雅的解决方案,但我使用expect通过生成ambari-server设置并自动将预配置值放入提示中来自动安装。 关于hadoop-如何?使用amb

hadoop - Flume--找不到主类 : org. apache.flume.tools.GetJavaProperty

我正在使用clouderaCDH4.4。当我运行flumecmd时-"bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,console"我遇到了一个错误:[cloudera@localhostFlume]$bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,consoleWarning:Noconfigurationdirectoryset!Use--confto