草庐IT

hadoop-release

全部标签

hadoop - 分布式部署Hadoop程序

目前,我正在使用Eclipse开发我的Hadoop演示。我已经使用Hadoop独立模式运行并测试了它。但现在我想将我的Hadoop演示编译成Jar文件,以像Wordcount示例一样以完全分布式模式部署它。谁能指导我怎么做? 最佳答案 右键点击ProjectExplorer上的任何文件->Export->GenerateRunnablejarfile选择main方法的类(以前是Driver类)。将jar文件复制到集群的master节点。然后,到master节点上安装hadoop的路径运行bin/hadoopjarjarfile.ja

hadoop - 如何在 Hadoop 中使用 ALS 实现矩阵分解推荐器?

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭7年前。Improvethisquestion我正在阅读有关协同过滤的ALS算法论文,但不确定如何在Hadoop中实现该算法。有谁能阐明一些道理吗?非常感谢。

hadoop - Hive 和 JsonSerDe 的数据问题

我正在使用JSON格式的Twitter数据并创建我的Hive结构来存储数据。我还使用SerDeorg.openx.data.jsonserde.JsonSerDe来序列化/反序列化每一行。我有一个问题列是地理列(碰巧是我的应用程序最重要的列)。本栏目的结构如下(完整结构在底部):geostruct,type:string>这适用于具有正确数据的行:“地理”:{“类型”:“点”,“坐标”:[0.123337,0.955139]}然而,我的大部分数据都包含地理列的以下内容:“地理”:“无”这会导致以下SerDe错误:数据不是JSONObject而是值为None的java.lang.Stri

hadoop - 如何配置 hbase 写入文件系统?

我已经在suselinuxbox中安装了hbase。hbase-site.xml文件如下所示:hbase.rootdirfile:///app/data.1/dashboard/hbasehbase.zookeeper.property.dataDir/app/data.1/dashboard/zookeeper我需要存储空间来写入/app/data.1文件系统,因为它超过50TB。但是,看起来hbase存储正在像这样写入/tmp文件系统:6495573175064-rw-rw-rw-1rootroot3251261936Jul1908:08/tmp/hbase-root/hbase/

java - 如何使用java代码设置hadoop tmp目录

要从我使用的命令行更改hadoop.tmp.direxportHADOOP_opts="-Dhadoop.tmp.dir=/path/"但我想在我的java代码中实现它,但我不知道该怎么做。是否有任何命令指向java中的hadooptmp位置,如果我们想为映射器指定堆空间,我们使用conf.set("mapred.map.java.opts","-Xmx1024m")。任何指针将不胜感激。我试过System.getproperty("hadoop.tmp.dir")来检查tmp目录的位置,但它返回null,所以我猜这不是在hadoop中设置tmp目录的方法。

hadoop - 确定 Hive 表上的分桶配置

我很好奇是否有人可以提供更多关于如何在Hive表上配置分桶属性的说明。我看到它有助于连接,我相信我读到将它放在您将用于连接的列上是很好的。那可能是错误的。我也很好奇如何确定要选择的桶数。如果有人能就如何确定所有这些事情给出一个简短的解释和一些文档,那就太好了。在此先感谢您的帮助。克雷格 最佳答案 如果你想先在你的表中实现分桶,你应该设置属性设置hive.enforce.bucketing=true;它将强制分桶。carnality:列的可能值的数量。如果您使用ClusterBy子句实现分桶,您的分桶列应该具有高亲和性,那么您将获得更

hadoop - 如何关闭你的namenode?

如何在CentOs上的Hadoop1.2.1中关闭您的Namenode并将您的namenode与Datanode实例交换,我还必须确保在此过程中没有数据丢失。我在主节点、从节点1和从节点2上使用Hadoop1.2.1。我正在寻找Unix命令或我需要在配置文件中进行的更改。如有需要,请询问任何具体细节! 最佳答案 您可以备份名称节点元数据并终止名称节点。在其他感兴趣的节点上安装名称节点包,并将元数据的备份副本放在名称节点数据目录中。现在启动名称节点,这应该会获取您的旧元数据。请记住更改所有配置文件中的名称节点详细信息。

hadoop - 如何为 hadoop 流定义或解决此错误?

我在hadoopmr作业中遇到了一些错误,如何为hadoop流定义这个问题?Error:java.io.EOFException:Unexpectedendofinputstreamatorg.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:145)atorg.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:85)atjava.io.InputStream.read(Input

maven - 如何使用 Maven 构建 Hadoop 作业

我是maven和hadoop的新手,想知道更多关于如何设置maven环境的信息,以便我可以构建一个简单的hadoopwordcount作业。如果wordcount作业由map.java、reduce.java和驱动程序类wordcount.java组成,它们应该保存在哪里,以便maven可以将它们编译成.jar?我还有一个pom.xml。如果有人可以详细解释如何使用maven运行wordcount作业,我将不胜感激。我目前正在ubuntu终端上的单节点集群hadooptar上做所有事情。我发现这些链接给了我一些见解,但我并不完全理解整个路径目录方案。具体来说,groupid和artif

hadoop - 是否可以将一个 oozie 操作的输出用于其他操作而无需从 hdfs 保存和加载?子工作流选项在这方面有用吗?

我必须编写一个运行多个pig操作的oozie工作流。这些pig操作可能相互依赖。我的意思是一个pig脚本的输出将对其他脚本有用。我想避免从hdfs进行多次保存和加载。这是如何实现的?我可以使用TEZDAG将DAG结构中的所有pig脚本组合起来,并从Oozie运行一个JavaAction吗? 最佳答案 在oozie中,你不能将一个节点的输出传递到另一个节点(不存储在HDFS中)。您可以实现PigServer(pigjavaAPI)来执行多个pig脚本。在一个使用pigserver的java程序中,它总是很容易满足您的要求。