hadoop-worker

hadoop - 如何配置 hbase 写入文件系统？

我已经在suselinuxbox中安装了hbase。hbase-site.xml文件如下所示:hbase.rootdirfile:///app/data.1/dashboard/hbasehbase.zookeeper.property.dataDir/app/data.1/dashboard/zookeeper我需要存储空间来写入/app/data.1文件系统，因为它超过50TB。但是，看起来hbase存储正在像这样写入/tmp文件系统:6495573175064-rw-rw-rw-1rootroot3251261936Jul1908:08/tmp/hbase-root/hbase/

java - 如何使用java代码设置hadoop tmp目录

要从我使用的命令行更改hadoop.tmp.direxportHADOOP_opts="-Dhadoop.tmp.dir=/path/"但我想在我的java代码中实现它，但我不知道该怎么做。是否有任何命令指向java中的hadooptmp位置，如果我们想为映射器指定堆空间，我们使用conf.set("mapred.map.java.opts","-Xmx1024m")。任何指针将不胜感激。我试过System.getproperty("hadoop.tmp.dir")来检查tmp目录的位置，但它返回null，所以我猜这不是在hadoop中设置tmp目录的方法。

java hadoop section tmp mapreduce

hadoop - 确定 Hive 表上的分桶配置

我很好奇是否有人可以提供更多关于如何在Hive表上配置分桶属性的说明。我看到它有助于连接，我相信我读到将它放在您将用于连接的列上是很好的。那可能是错误的。我也很好奇如何确定要选择的桶数。如果有人能就如何确定所有这些事情给出一个简短的解释和一些文档，那就太好了。在此先感谢您的帮助。克雷格最佳答案如果你想先在你的表中实现分桶，你应该设置属性设置hive.enforce.bucketing=true;它将强制分桶。carnality:列的可能值的数量。如果您使用ClusterBy子句实现分桶，您的分桶列应该具有高亲和性，那么您将获得更

hadoop Hive section 的克雷格

hadoop - 如何关闭你的namenode？

如何在CentOs上的Hadoop1.2.1中关闭您的Namenode并将您的namenode与Datanode实例交换，我还必须确保在此过程中没有数据丢失。我在主节点、从节点1和从节点2上使用Hadoop1.2.1。我正在寻找Unix命令或我需要在配置文件中进行的更改。如有需要，请询问任何具体细节! 最佳答案您可以备份名称节点元数据并终止名称节点。在其他感兴趣的节点上安装名称节点包，并将元数据的备份副本放在名称节点数据目录中。现在启动名称节点，这应该会获取您的旧元数据。请记住更改所有配置文件中的名称节点详细信息。

namenode hadoop section 并将中进

hadoop - 如何为 hadoop 流定义或解决此错误？

我在hadoopmr作业中遇到了一些错误，如何为hadoop流定义这个问题？Error:java.io.EOFException:Unexpectedendofinputstreamatorg.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:145)atorg.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:85)atjava.io.InputStream.read(Input

hadoop 何为 java apache hadoop-streaming emr amazon-emr

maven - 如何使用 Maven 构建 Hadoop 作业

我是maven和hadoop的新手，想知道更多关于如何设置maven环境的信息，以便我可以构建一个简单的hadoopwordcount作业。如果wordcount作业由map.java、reduce.java和驱动程序类wordcount.java组成，它们应该保存在哪里，以便maven可以将它们编译成.jar？我还有一个pom.xml。如果有人可以详细解释如何使用maven运行wordcount作业，我将不胜感激。我目前正在ubuntu终端上的单节点集群hadooptar上做所有事情。我发现这些链接给了我一些见解，但我并不完全理解整个路径目录方案。具体来说，groupid和artif

Hadoop maven jar section build pom.xml

hadoop - 是否可以将一个 oozie 操作的输出用于其他操作而无需从 hdfs 保存和加载？子工作流选项在这方面有用吗？

我必须编写一个运行多个pig操作的oozie工作流。这些pig操作可能相互依赖。我的意思是一个pig脚本的输出将对其他脚本有用。我想避免从hdfs进行多次保存和加载。这是如何实现的？我可以使用TEZDAG将DAG结构中的所有pig脚本组合起来，并从Oozie运行一个JavaAction吗？最佳答案在oozie中，你不能将一个节点的输出传递到另一个节点(不存储在HDFS中)。您可以实现PigServer(pigjavaAPI)来执行多个pig脚本。在一个使用pigserver的java程序中，它总是很容易满足您的要求。

这方这方面 section pig 合起 hadoop bigdata oozie apache-tez

hadoop - pig @hadoop : processing local files without hdfs with multiple cores

如果我在本地模式下运行pig@hadoop(因为我不想使用hdfs)，那么它会在单线程/单进程模式下处理我的脚本。如果我将hadoop设置为伪模式(hdfswithreplication=1)，那么pig@hadoop不喜欢我的file:///...:traj=LOAD'file:///root/traj'USINGorg.apache.pig.piggybank.storage.CSVExcelStorage(';','NO_MULTILINE','UNIX','SKIP_INPUT_HEADER')AS(a1:chararray,a2:long,a3:long,a4:float,a

hadoop processing section pig multiprocessing apache-pig

安装和配置中的 hadoop 问题

在我尝试启动start-dfs.sh时安装hadoop后，它显示以下错误消息。查了很多发现WARN是因为我在用UBUNTU64位操作系统和hadoop是针对32位编译的。所以这不是一个需要解决的问题。但是我担心的是不正确的配置。并且也无法启动主要和次要名称节点。sameer@sameer-Compaq-610:~$start-dfs.sh15/07/2707:47:41WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereappli

hadoop 安装 gt lt property

hadoop - 如何将 Microsoft SQL Server 中的数据导入 HBase

我已经使用ClouderaManager和CDH5.4在集群系统(1Master，2Slaves，基于Ubuntu的高配置)上成功安装了ApacheHadoop我想将数据从MicrosoftSQL服务器导入到HBase(基于列的hadoop数据库)，截至目前，我已经从SQL服务器生成CSV文件并使用HBase浏览器(ClouderaManager中的Hue应用程序)将CSV导入到HBase。如果有任何方法可以直接将SQL服务器数据导入HBase，那对我会有帮助，我听说Sqoop应用程序已经完成了将数据从RDBMS导入Hadoop系统(即使我没有尝试这个，我假设这会导入CSV文件到Had

Microsoft hadoop section HBase https

51 52 535455 56 57