HADOOP_PREFIX

hadoop - 不同 block 大小的 Hadoop

我需要做什么才能在Hadoop中拥有更小/更大的block？具体来说，我希望有更多的映射器，这样可以处理更小的数据。似乎我需要减小块大小，但我很困惑(我是Hadoop的新手)——我是否需要在将文件放在HDFS上时做一些事情，或者我是否需要指定与输入拆分大小相关的内容，或两者兼而有之？我正在共享集群，所以我无法执行全局设置，所以如果可能的话，需要在每个作业的基础上进行设置吗？我正在通过代码(稍后可能来自Oozie)运行该作业。最佳答案映射器运行的内容由输入拆分控制，完全取决于您如何指定它。HDFSblock大小与它无关(除了大多数

hadoop 射器 section noreferrer

hadoop - 如何使用MR代码处理hadoop中的单个文件

我有一个文件，其中包含meterid、hour、watts...和其他一些字段。我为每个meterid制作了复合键meterid和hour以及每小时的瓦特总和。MR代码适用于单个文件。我有多个文件，文件名是日期之类的14-05-2015.txt,15-05-2015.txtetc.我执行相同的代码并添加与meterid和小时对应的所有瓦特。但我希望瓦特将为与电表ID和小时相对应的每个文件求和，而不是为所有文件求和。最佳答案要轻松解决此问题，您可以在编写的组合键中也包含文件名。这将帮助您在缩减阶段之前对为每个文件单独生成的key进

hadoop 如何 section meterid 求和 mapreduce

hadoop - 使用 Apache Giraph 时出错

我在ApacheGiraph中运行SimpleOutDegreeCountComputation程序时收到以下错误。我使用JsonLongDoubleFloatDouble作为输入格式。$HADOOP_HOME/bin/hadoopjar$GIRAPH_HOME/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examples.SimpleOutDe

时出 hadoop apache giraph org

hadoop - 为什么 Impala 为一个插入语句生成多个文件

假定应该为单个“插入...选择”语句生成一个文件，而在我的例子中生成了20个文件。如何将结果缩减为一个文件？最佳答案如果文件很小，您可以使用SETNUM_NODES=1强制所有数据通过单个节点，如documentation中所述. 关于hadoop-为什么Impala为一个插入语句生成多个文件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/30367636/

插入语 hadoop section cloudera 中生 impala

hadoop - hadoop 上的 Hbase 未在分布式模式下连接

您好，我正在尝试在HADOOP(hadoop-2.7.0)上设置HBASE(hbase-0.98.12-hadoop2)Hadoop在localhost:560070上运行，运行良好。我的hbase-site.xml如下所示hbase.rootdirhdfs://localhost:9000/hbasehbase.cluster.distributedtruehbase.zookeeper.quorumlocalhostdfs.replication1-->hbase.zookeeper.property.clientPort2181当我启动./start-hbase.sh时，我在日志

hadoop Hbase apache java bigdata ubuntu-14.04 distributed

hadoop - 错误 terasort.TeraSort : Input path does not exist: maprfs:/user/user01/–DXmx1024m

在通过修改参数运行terasort应用程序时，我收到以下错误。15/05/2421:41:42ERRORterasort.TeraSort:Inputpathdoesnotexist:maprfs:/user/user01/–DXmx1024m我正在运行用于执行慢跑的命令$hadoopjar/opt/mapr/hadoop/hadoop-0.20.2/hadoop-0.20.2-dev-\examples.jarterasort–DXmx1024m–Dmapred.reduce.tasks=2\-Dio.sort.mb=1/user/user01/6/TERA_IN/user/user

user TeraSort hadoop mapr

hadoop - Apache Hadoop pig SPLIT 不工作。给出错误 1200

包的结构:emp=LOAD'...../emp.csv'usingPigStorage(',')AS(ename:chararray,id:int,job:chararray,sal:double)这个包包含员工的详细信息。我想根据工作拆分数据。Bag=splitempintomngrifjob=='MANAGER';这不工作并给予Error1200.如果我再添加一个条件，forex.-sal10kifsal，那么它正在工作。但为什么不只在一个chararray上？我是hadooppig的新手。了解一些基础知识。请帮忙。最佳答案

hadoop Apache MANAGER code strong split apache-pig latin

hadoop - 在 Hadoop 作业中找不到类

我有一个mapreduce作业，它从DocumentDB获取输入。我在源代码的lib目录下添加了jar文件，并在运行作业时使用了-libjars。但我仍然收到jar文件中某个类的类未找到错误。这是我的驱动程序的一部分publicclassMapReduceDriverextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{intres=ToolRunner.run(newConfiguration(),newMapReduceDriver(),args);System.exit(

hadoop java Configuration mapreduce azure-cosmosdb

Hadoop 复制因子

这个问题在这里已经有了答案:Hadoopdfsreplicate(4个答案)关闭7年前。我已经使用hadoop一段时间了。当我配置hadoop时，我通过名为dfs.replication的属性来了。但我无法弄清楚它是如何工作的。请帮助我。

Hadoop 复制因子 section notice span hdfs bigdata

mysql - 如何在 Hadoop Hive 中获取子字符串？

我的问题是如何通过字符串中的指示在Hive中获取子字符串。我的列值格式是这样的:/Country/State/City/Suburb/Street这里我只需要得到Country。我喜欢SPLIT，它返回由“/”分隔的字符串数组。还有SUBSTR(stringa,intbegin)，它从指定的开始返回一个子字符串。在split中，我需要再次访问一个数组，其中第一个元素是所需的元素，但只想知道是否有任何其他更简单的方法来获取国家/地区。谢谢最佳答案我尝试使用正则表达式来提取Country。使用正则表达式配置单元查询是:selectr

何在 Hadoop code strong section mysql hive

103 104 105106107 108 109