hadoop-examples

hadoop - MapReduce 程序中 DistributedCache 的替代方案是什么？

当您需要将您的mapper/reducer经常使用的少量数据放入distributedCache时，DistributedCache似乎会派上用场。但在某些情况下，您想要放入映射器的数据会非常大，比如超过300MB。在这种情况下你会怎么做？在这种情况下，分布式缓存的替代方案是什么？最佳答案分布式缓存默认是几千兆字节，所以300MB不一定是问题。(您可以在mapred-site.xml中调整大小。)如果您的作业经常运行并且缓存中几乎没有其他改动，那么为节点获取300MB仍然是值得的。另一种选择是将您的文件放在HDFS上，让任务从那

java - 有没有办法强制 hadoop 作业查看下划线文件夹？

我必须处理文件夹中以“_”(下划线)开头的一堆文件。有没有办法强制hadoop查看这些文件夹？我需要编写自己的FileInputFormat吗？最佳答案最简单的方法可能是使用例如FileSystem.globStatus自行构建输入文件列表，然后使用FileInputFormat.addInputPath手动将它们添加到作业中。FileSystem.globStatus默认不过滤隐藏文件。关于java-有没有办法强制hadoop作业查看下划线文件夹？，我们在StackOverflo

下划 hadoop section code java hdfs

hadoop - 如何将图像和视频等非结构化数据加载到 Hadoop 分布式文件系统中

我想使用hadoop组件将非结构化数据(图像、视频)加载到HDFS。任何人都可以在这个查询中帮助我。我需要使用哪个hadoop组件来加载非结构化数据。以及使用该组件，如何导入它。最佳答案非结构化数据如常规文件？如果数据存储在某个地方的普通文件系统中，那么您不需要任何花哨的组件。您可以使用内置的HDFS工具(hadoopfs等)上传它。您可以编写一些shell脚本来自动执行此操作...如果出于某种原因您的数据在数据库中存储为blob，您可以使用Sqoop。关于hadoop-如何将图像

结构化 hadoop section hdfs

hadoop - 在 ZooKeeper 中使用 Zab 协议(protocol)进行广播

早上好我是ZooKeeper及其协议(protocol)的新手，我对它的广播协议(protocol)Zab很感兴趣。能否提供一个使用Zookeeper的Zab协议(protocol)的简单java代码？我一直在搜索，但没有成功找到显示如何使用Zab的代码。事实上，我需要的很简单，我有一个MapReduce代码，我希望所有映射器在成功找到更好的X值(即更大的值)时更新一个变量(比如说X)。在这种情况下，领导者必须比较旧值和新值，然后将实际最佳值广播给所有映射器。我怎样才能在Java中做这样的事情？提前致谢，问候最佳答案您不需要使用

ZooKeeper protocol 射器 data zkclient hadoop mapreduce apache-zookeeper

hadoop - 如何使用 pig 或 hadoop fs 选项重命名具有特定扩展名的文件？

我在基于mm/dd/yyyy分区的文件夹结构中有*.gz文件.我想重命名以.gz扩展名结尾的文件。请建议如何使用hadoopfs命令行选项或使用pig重命名具有特定扩展名的文件。这是我的文件夹结构----rootfolder|---year--month--day--filename*.gz我想重命名扩展名为.gz的文件。请建议如何实现这一目标。最佳答案我知道这是一个肮脏的hack，但它对我有用。我假设您想将.gz文件扩展名更改为.newextension:hadoopfs-lsroot/*/*/*/filename*.gz|g

hadoop 扩展名 section code apache-pig

hadoop - Hive - 如何从文件名作为列的文件中加载数据？

我正在运行以下命令来创建我的表ABC并从我指定文件路径中的所有文件中插入数据。现在我想添加一个带有文件名的列，但是如果不循环遍历文件或其他东西，我找不到任何方法来做到这一点。关于执行此操作的最佳方法有什么建议吗？CREATETABLEABC(NAMEstring,DATEstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILE;hive-e"LOADDATALOCALINPATH'${DATA_FILE_PATH}'INTOTABLEABC;" 最佳答案 Hive

中加 hadoop section code TABLE load hive filenames

hadoop - 连续计算2个字段的总和

您好，我一直在尝试计算PIG中连续2个字段的总和例如jnd:{count_d::server:chararray,count_d::uniq_visitors:long,count_d2::server:chararray,count_d2::uniq_visitors:long}A12A14B13B16我想回去A26B29我如何使用内置的SUM函数在PIG中执行此操作？？？？？我无法让它工作我设法使用UDF做到了，但是没有UDF也可以做到吗？？最佳答案您可以在FOREACH中使用+运算符C=FOREACHjndGENERATE

hadoop 连续 section code count_d apache-pig

hadoop - java.io.IOException :java. lang.ClassCastException : org. apache.hadoop.hbase.client.Result 无法转换为 org.apache.hadoop.io.Writable

尝试了一个从hive处理hbase中的表的示例。CREATEEXTERNALTABLE命令成功，但是select语句给出类转换异常环境:hive0.12.0,hbase0.96.1,hadoop2.2,Virtualbox上的Ubuntu12.04hive>SHOWTABLES;OKhbatablese_myhiveTimetaken:0.309seconds,Fetched:1row(s)hive>SELECT*FROMhbatablese_myhive;OK**异常失败java.io.IOException:java.lang.ClassCastException:org.apac

hadoop apache code section Result hive hbase

hadoop - 我可以将 Hadoop 2.0.0-cdh4.5.0 与 Cassandra 2.0.5 一起使用吗？

我正在尝试将Hadoop2.0(特别是Cloudera4.5发行版)与Cassandra2.0.4数据库一起使用。在解决了一系列问题之后(例如确保Hadoop使用1.7jdk运行)我陷入了这个错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.JobContext,butclasswasexpectedatorg.apache.cassandra.hadoop.AbstractColumnFamilyInputFormat.g

Cassandra hadoop section cloudera

hadoop - siebel 应用程序 hadoop 连接

我想了解hadoop是否支持siebel应用程序，任何人都可以分享这方面的经验。我查找了在线文档，但找不到任何正确的链接来解释这个问题，因此在此处发布问题我有siebel应用程序与Oracle数据库一起运行，我想用HAdoop替换..这可能吗？最佳答案答案是否定的。基本上，Hadoop根本不是数据库。Hadoop基本上是一个分布式文件系统(HDFS)-它允许您在机器云上存储大量文件数据，处理数据冗余等。在该分布式文件系统之上，它提供了一个API，用于使用称为Map-Reduce的东西处理所有存储的数据。

hadoop siebel section