HADOOP_PREFIX

java - Hadoop项目启动时需要的JAR有哪些？

这一定看起来像是一个愚蠢的问题，但我是Hadoop的新手并且正在尝试运行一个简单的示例。但是，我一直遇到JAR文件的问题并且似乎没有正确的导入。我正在使用clouderaCDH4，它有很多JAR文件可供选择，每个文件都有多个版本。因为我刚刚开始，所以无法区分。目前我得到这个异常(exception):Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/configuration/Configurationatorg.apache.hadoop.metrics2.lib.DefaultMetri

performance - hadoop大文件不拆分

我有一个大小为136MB的输入文件，我启动了一些WordCount测试，我只监控一个映射器。然后我在我的hdfs-site.xml中将dfs.blocksize设置为64MB并且我仍然得到一个映射器。我做错了吗？最佳答案 dfs.block.sizeisnotaloneplayingaroleandit'srecommendednottochangebecauseitappliesgloballytoHDFS.Splitsizeinmapreduceiscalculatedbythisformulamax(mapred.min.s

大文 performance code section size hadoop split mapreduce

hadoop - HDFS 文件夹权限中的掩码是什么

我是hadoop用户，在Windows中使用Hadoop-2.6.0。我想将Acls用于文件夹级别的权限。我不明白目录的权限。据我所知，目录的所有者和super组中的用户对该目录具有完全访问权限。那么由::分隔的默认用户、组、其他和掩码是什么？HDFS如何检查权限。什么是掩码？在哪里、如何以及为什么使用它？我提到了HDFS_Permissions但不是很清楚。帮助我理解用法和概念。最佳答案 ACL的顺序为::.如果名称字段未填充，则它适用于每个用户/组。如果提供了名称，它将补充没有名称的条目。意思是，在您上面的示例中，默认情况下用

hadoop HDFS 条目 section code permissions acl

hadoop - 自定义分区程序与 MultipleOutputFormat

我是mapreduce的新手，我想知道使用自定义分区器根据特定条件创建多个输出与Mapreduce中的MultipleOutputs概念有什么区别。最佳答案使用自定义分区，您会将数据发送到不同的reducer，每个reducer将写入一个文件，其中包含由它处理的所有数据。part-r-00001,part-r-00002...使用MiltipleOutputs，每个reducer都可以使用自定义名称写入不同的文件(多个输出)。Tag1-r-00001,Tag2-r-00001,Tag1-r-00002,Tag2-r-00002.

自定 MultipleOutputFormat section reducer hadoop mapreduce

hadoop - 人类可读格式的cloudera hadoop集群上的剩余空间

我正在寻找一个命令来显示hadoop集群上剩余空间的人类可读形式。我在这个论坛上找到了一个命令，输出在图像中。hdfsdfsadmin-报告[dfsadmin命令的输出][1]我听说hortonworks中还有另一个命令可以提供更易读的输出。该命令是hdfsdfsadmin-report该命令似乎不适用于cloudera。cloudera中是否有任何等效命令？非常感谢最佳答案不管您使用的是Cloudera还是Hortonworks。如果您使用的是旧版本的hadoop，则命令可能是hadoopdfsadmin-report。您还有

hadoop cloudera section strong mapreduce

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群，运行了map-reduce作业，效果很好。在日志中查找结果，一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南，有人可以给我一个好的链接吗？我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

hadoop spark code apache-spark vagrant hadoop-yarn bigdata

hadoop - 从配置单元中删除表不起作用

我想从表A中删除列c大于表B的列c的行我试过了delete*fromAwhereA.p>=(selectmax(t.c)fromBt)但它不起作用。我怎样才能做到这一点？最佳答案 INSERT...VALUES、UPDATE和DELETE语句需要hive-site.xml配置文件中的以下属性值:hive.enforce.bucketingtruehive.exec.dynamic.partition.modenonstrict更新相应的hive-site.xml中的配置后，重新启动服务–HiveServer2和HiveMetast

配置单 hadoop section code pre hive

hadoop - SQOOP导入失败，找不到文件异常

我是hadoop架构系统的新手，使用网络搜索安装组件。为此，我安装了Hadoop、sqoop、hive。这是我安装的目录结构(我的本地ubuntu机器和任何虚拟机，我的每个安装都在单独的目录中):-/usr/local/hadoop/usr/local/sqoop/usr/local/hive通过查看错误，我尝试解决它，因此我将sqoop(本地计算机/usr/local/sqoop)文件夹复制到hdfs目录(hdfs://localhost:54310/usr/local/sqoop)。这解决了我的问题。我想从这里了解一些事情:-在将我的sqoop复制到hdfs之前，我的安装是否正确？

hadoop SQOOP apache java

hadoop - MapReduce shuffle 阶段瓶颈

我正在阅读原始的MapReduce论文。我的理解是，当处理数百GB的数据时，传输如此多数据的网络带宽可能成为MapReduce作业的瓶颈。对于map任务，我们可以通过在已经包含任何给定拆分数据的worker上安排map任务来减少网络带宽，因为从本地磁盘读取不需要网络带宽。然而，shuffle阶段似乎是一个巨大的瓶颈。reduce任务可能会从所有map任务接收中间键/值对，并且几乎所有这些中间键/值对都将通过网络流式传输。当处理数百GB或更多的数据时，有必要使用组合器来实现高效的MapReduce作业吗？最佳答案如果Combine

MapReduce shuffle section Combiner hadoop

java - Hadoop:是否可以将多个文件放在一起？

我有包含许多文件的输入。它们的大小大于blockSize。每个文件在被处理后，至少诱导一个InputSplit来处理它。一个问题是:是否可以一次处理多个文件？基于FileInputFormat代码，它不是:for(FileStatusfile:files){337Pathpath=file.getPath();338longlength=file.getLen();339if(length!=0){340BlockLocation[]blkLocations;341if(fileinstanceofLocatedFileStatus){342blkLocations=((Located

Hadoop java section bytesRemaining blkLocations

105 106 107108109 110 111