Hadoop

linux - 如何禁止打印到 CLI 的配置单元列名？

我的配置单元表中有太多列，导致我的文本编辑器在完成作业时崩溃。我希望有一个sethive.exec.showheaders=false我查看了配置单元JIRA，但找不到更改任何类型设置的好方法。最佳答案将下面的属性设置为false。hive>sethive.cli.print.header=false; 关于linux-如何禁止打印到CLI的配置单元列名？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.

配置单列名 section code linux hadoop hive hiveql

java - 如何使用java代码设置hadoop tmp目录

要从我使用的命令行更改hadoop.tmp.direxportHADOOP_opts="-Dhadoop.tmp.dir=/path/"但我想在我的java代码中实现它，但我不知道该怎么做。是否有任何命令指向java中的hadooptmp位置，如果我们想为映射器指定堆空间，我们使用conf.set("mapred.map.java.opts","-Xmx1024m")。任何指针将不胜感激。我试过System.getproperty("hadoop.tmp.dir")来检查tmp目录的位置，但它返回null，所以我猜这不是在hadoop中设置tmp目录的方法。

java hadoop section tmp mapreduce

java - 映射中的键类型不匹配

我收到这个错误:java.lang.Exception:java.io.IOException:Typemismatchinkeyfrommap:expectedorg.apache.hadoop.io.Text,receivedorg.apache.hadoop.io.LongWritableatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)atorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java

射中 java value 34 hadoop avro

java - 如果驱动程序崩溃，则终止 MapReduce 作业

我有一个驱动程序，它在Hadoop2.4.0上使用org.apache.hadoop.mapreduce.Job.waitForCompletion(boolean)启动MapReduce作业。我遇到的问题是，如果驱动程序在作业中途崩溃，作业将继续运行。如果驱动程序崩溃，有没有办法杀死启动的MapReduce作业？驱动程序是否崩溃不是我能控制的。我猜这需要客户端和作业定期相互轮询。API中是否有针对此的设置或方法？最佳答案您可以在yarnwebUI中找到您的applicationId(jobId)，或者您可以输入yarnappl

MapReduce 驱动 section code java hadoop hadoop2

hadoop - 确定 Hive 表上的分桶配置

我很好奇是否有人可以提供更多关于如何在Hive表上配置分桶属性的说明。我看到它有助于连接，我相信我读到将它放在您将用于连接的列上是很好的。那可能是错误的。我也很好奇如何确定要选择的桶数。如果有人能就如何确定所有这些事情给出一个简短的解释和一些文档，那就太好了。在此先感谢您的帮助。克雷格最佳答案如果你想先在你的表中实现分桶，你应该设置属性设置hive.enforce.bucketing=true;它将强制分桶。carnality:列的可能值的数量。如果您使用ClusterBy子句实现分桶，您的分桶列应该具有高亲和性，那么您将获得更

hadoop Hive section 的克雷格

hadoop - 如何关闭你的namenode？

如何在CentOs上的Hadoop1.2.1中关闭您的Namenode并将您的namenode与Datanode实例交换，我还必须确保在此过程中没有数据丢失。我在主节点、从节点1和从节点2上使用Hadoop1.2.1。我正在寻找Unix命令或我需要在配置文件中进行的更改。如有需要，请询问任何具体细节! 最佳答案您可以备份名称节点元数据并终止名称节点。在其他感兴趣的节点上安装名称节点包，并将元数据的备份副本放在名称节点数据目录中。现在启动名称节点，这应该会获取您的旧元数据。请记住更改所有配置文件中的名称节点详细信息。

namenode hadoop section 并将中进

shell - 如何将一个目录中的多个CSV表递归加载到Hive中

我已经创建了一个具有指定模式但没有数据的外部Hive表，比如表A。现在假设我在HDFS目录中有CSV文件，按以下方式组织:20150718/dir1/dir2/file1.csv20150718/dir1/dir2/file2.csv...................20150718/dir1/dir2/..../dirN/file10000.csv换句话说，这些文件可能在目录20150718中的多个不同级别的目录中。如何在一个Hive/shell命令中加载这些CSV文件？另一个注意事项是我计划随着时间的推移根据日期创建分区，那么我应该如何进行？仍然是新的Hive用户，非常感谢您的

shell Hive blockquote section code csv hadoop database-partitioning

java - 如何从单独的 java 程序中在集群上运行 spark 程序？

我有一个运行单独的小型spark程序的java程序，那么如何让我的java程序在集群上运行小型spark模块/程序？例如:我有一个程序名executor(java程序)。和一些spark程序--添加两个数字--减去两个数字那么我如何从我的java程序(在这种情况下为执行程序)在Cluster上运行这些spark程序。谢谢!!! 最佳答案检查sparkjobserver项目，让您创建共享上下文并从rest接口(interface)执行作业:https://github.com/spark-jobserver/spark-jobser

java spark section spark-jobserver hadoop apache-spark

hadoop - 如何为 hadoop 流定义或解决此错误？

我在hadoopmr作业中遇到了一些错误，如何为hadoop流定义这个问题？Error:java.io.EOFException:Unexpectedendofinputstreamatorg.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:145)atorg.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:85)atjava.io.InputStream.read(Input

hadoop 何为 java apache hadoop-streaming emr amazon-emr

maven - 如何使用 Maven 构建 Hadoop 作业

我是maven和hadoop的新手，想知道更多关于如何设置maven环境的信息，以便我可以构建一个简单的hadoopwordcount作业。如果wordcount作业由map.java、reduce.java和驱动程序类wordcount.java组成，它们应该保存在哪里，以便maven可以将它们编译成.jar？我还有一个pom.xml。如果有人可以详细解释如何使用maven运行wordcount作业，我将不胜感激。我目前正在ubuntu终端上的单节点集群hadooptar上做所有事情。我发现这些链接给了我一些见解，但我并不完全理解整个路径目录方案。具体来说，groupid和artif

Hadoop maven jar section build pom.xml

41 42 434445 46 47