Hbase-hadoop

hadoop - pig 叉积减速键

当我执行叉积运算(随后进行过滤)时，reducer大小非常不平衡，一些reducer输出为零，而其他则需要几个小时才能完成。一个基本示例是以下代码:crossproduct=crosstweets,clients;result=filtercrossproductbytextmatchesCONCAT('.*',CONCAT(keyword,'.*'));storeresultinto'result'usingPigStorage('');在这种情况下，reducer键是什么？最佳答案这是一个很难回答的问题。Cross在Pig中

减速 hadoop section flatten code apache-pig

hadoop - 尝试使用 LzoPigStorage 和 elephant-bird 加载索引 LZO 文件

我有一个使用默认LZO压缩的日志文件和一个使用Hadoop-LZO生成的.index文件，但是当我运行一个简单的Pig文件以使用LzoPigStorage检索前100条记录时，我得到以下异常:Message:UnexpectedSystemErrorOccured:java.lang.RuntimeException:java.lang.reflect.InvocationTargetExceptionatorg.apache.pig.backend.hadoop23.PigJobControl.submit(PigJobControl.java:130)atorg.apache.pi

LzoPigStorage elephant-bird java hadoop apache apache-pig hdfs lzo elephantbird

hadoop - Hadoop FS 的意图是保留在 RAM 还是磁盘中？

我们正在考虑在我的公司使用Hadoop。通过查看Internet上的文档，我得到的印象是HDFS的想法是将其保存在RAM中以加快速度。现在我们的架构师说HDFS的主要思想是可伸缩性。我没意见。但随后他还声称主要想法是将其保存在硬盘上。HDFS基本上是一个可扩展的硬盘。我的意见是由硬盘支持HDFS是一种选择。然而，主要思想是将其保存在RAM中。现在是谁？我现在真的很困惑，我想说，这一点对于理解Hadoop至关重要。谢谢，奥利弗最佳答案 Oliver，您的建筑师是对的。水平可扩展性是HDFS(通常是Hadoop)的最大优势之一。当您说

留在 hadoop HDFS strong section

hadoop - 使用 JOIN 语法的 Hive RLIKE

我在配置单元上有两个表。第一个称为“访问”，包含apache日志，其中第一个字段是完整的ip地址:10.4.5.12--[26/Jun/2010:11:16:09+1000]"GET/myportal/pageAHTTP/1.1"10.4.41.2--[26/Jun/2010:11:18:09+1000]"GET/myportal/pageBHTTP/1.1"10.5.1.111--[26/Jun/2010:11:22:09+1000]"GET/myportal/pageAHTTP/1.1"192.10.4.177--[26/Jun/2010:11:22:41+1000]"GET/my

hadoop RLIKE client code access hive

hadoop - 定时上传HDFS数据

我正在做一个项目，我会实时收集数据。我想定期将该数据从我的本地机器上传到HDFS。这里的频率将每隔几个小时。我的想法是安排一个批处理文件在2小时后定期运行。最佳答案你有几个选择:使用cron作业。如果您希望它更复杂，您可以使用ApacheOozie来安排您的作业。如果您希望以分布式、可靠和容错的方式完成此操作，您可以使用ApacheFlume。借助Flume，您甚至可以通过为数据源编写自定义Flume源直接从源收集数据，而无需先将数据聚合到本地FS，然后再将其移动到HDFS。关于h

hadoop HDFS section 来安 stackoverflow

hadoop - 我可以在同一台 Linux 机器上有两个 sudo 用户吗？

我正在使用ubuntu。我有一个名为hduser的super用户和另一个名为hadoopuser的用户，我在其中安装了hadoop并正在使用它。我的问题是我应该在哪里安装其他软件hive&pig。因为当我安装pig时一切正常，加载数据和一切，但是当我转储变量以打印输出时我得到异常org.apache.hadoop.security.AccessControlException:Permissiondenied:user=hduser,access=WRITE,inode="":hadoopuser:supergroup:rwxr-xr-xorg.apache.pig.impl.logi

hadoop Linux section strong hadoopuser apache-pig

hadoop - 自动链接 mapreduce 库

我正在开发一个在亚马逊网络服务上运行的mapreduce程序(它实际上是一个相当复杂的字数统计算法)。我生成了一个在AWS节点上运行的.jar。我现在正在做的是将所有mapreduce库jar合并到我的.jar文件中。一切正常，但我认为这不是一个很好的做法(他们对机器镜像进行了一些更新，我收到了可能与此相关的奇怪异常)。有人可以向我解释如何自动链接安装在亚马逊上的hadoop版本，这样我就可以在不将外部库添加到我的jar的情况下做到这一点吗？非常感谢您的帮助! 最佳答案所以您正在使用Amazon的ElasticMapReduce!

mapreduce hadoop section jar amazon-web-services

hadoop - 接受多个输入的 Pig UDF

PigUDF的快速问答。我有一个自定义UDF，我想接受多列:packagepigfuncs;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.pig.EvalFunc;importorg.apache.pig.FuncSpec;importorg.apache.pig.data.DataBag;importorg.apache.pig.data.DataType;importorg.apache.pig.data.Tuple;importorg.apache

hadoop Pig import section result apache-pig

hadoop - 如何确定 Hadoop 使用的所有默认端口并更改所有端口？

我在运行CentOS6.4的三个虚拟机集群上尝试了Hadoop2。我成功启动了hadoop集群，虽然Hadoop2的配置文件如:core-site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml折磨我很多。我想把Hadoop2使用的所有默认端口都改掉，配置文件的官方文档定义了那么多端口号。因此，我认为最好确定Hadoop在运行时使用了哪些端口，然后将其全部更改。那么如何在运行CentOS的集群中找出Hadoop使用的所有默认端口呢？谢谢。最佳答案您可以通过使用netstat命令并结

hadoop section 跟踪器 mapreduce centos port

hadoop - CDH4 主要用于 YARN 吗？

我有几个关于CDH4的问题或困惑。我在这里发帖是因为我没有得到关于我的问题的任何具体信息。CDH4是为了推广YARN吗？我尝试使用tarball使用CDH4.3.0设置MapReduce1。我终于做到了，但它是迂回而痛苦的。而YARN的设置很简单。有人在生产中使用YARN吗？Apache明确表示YARN仍处于alpha版本，不适合生产。在这种情况下，为什么Cloudera以CDH4YARN为中心？Cloudera是否在生产中支持YARN？如果问题不合适，我们深表歉意。这就是tarball解压的样子。我关注了几个links进行配置，但我对必须完成的方式不满意CDH4.3.0tarball

hadoop CDH4 YARN CDH mapreduce cloudera hadoop-yarn

90 91 929394 95 96