hadoop-release

hadoop - 边缘或工作节点上的 Flume？

对于数据摄取，我想使用flume并将其放在边缘节点(在集群外的安全DMZ中)或一个工作节点上。是否有放置位置的最佳实践？每种方法的优点/缺点是什么？最佳答案工作节点(即数据节点)上的Flume存在一个问题。使用HDFS，当客户端在数据节点上运行时写入数据时，数据的第一个副本始终写入本地数据节点。所以如果你有很多数据节点，然后你只在其中几个上运行Flume，那么这些数据节点往往会比其他节点使用更多的空间。这实际上取决于您计划使用Flume写入多少数据，这是否会成为一个问题，以及您是否在写入数据后对其进行处理。在边缘节点上安装Flu

java - 从同一个进程访问两个安全的 (Kerberos) Hadoop/HBase 集群

我有一个Java工具，可以将几行数据从一个HBase集群复制到另一个集群(称为ClusterA和ClusterB)。当两个集群都不安全时，这工作正常:ConfigurationconfigA=Utilities.makeHBaseConfig("configA.xml");ConfigurationconfigB=Utilities.makeHBaseConfig("configB.xml");HTabletableA=newHTable(configA,input_table);HTabletableB=newHTable(configB,output_table);tableA.g

Kerberos Hadoop configA section makeHBaseConfig java hbase

hadoop - 使用 distcp 命令复制到 s3 位置

我正在使用以下命令将一些数据从HDFS复制到S3:$hadoopdistcp-m1/user/hive/data/test/test_folder=2015_09_19_03_30s3a://data/Test/buc/2015_09_19_03_302015_09_19_03_30存储桶不存在于S3中。它成功地将/user/hive/data/test/test_folder=2015_09_19_03_30目录的数据复制到S32015_09_19_03_30存储桶中，但是当我再次执行相同的命令时，它会创建另一个存储桶进入S3。我希望这两个文件应该在同一个桶中。

hadoop distcp testing input section amazon-s3 s3distcp

hadoop - 无法通过 Hive 1.2 中的 alter table 恢复分区

我无法在配置单元1.2上运行ALTERTABLEMY_EXTERNAL_TABLERECOVERPARTITIONS;，但是当我运行替代方案时MSCKREPAIRTABLEMY_EXTERNAL_TABLE它只是列出了分区'在HiveMetaStore中并且没有添加它。根据hive-exec的源代码，我可以在org/apache/hadoop/hive/ql/parse/HiveParser.g:1001:1下看到语法中没有用于RECOVER的标记匹配分区。如果有办法在Hive1.2上创建外部表后恢复所有分区，请告诉我。ALTERTABLEMY_EXTERNAL_TABLERECOVE

hadoop alter apache java amazon-s3 hive hiveql hadoop2

hadoop - 如何读取 pig 中的json数据？

我有以下类型的json文件:{"employees":[{"firstName":"John","lastName":"Doe"},{"firstName":"Anna","lastName":"Smith"},{"firstName":"Peter","lastName":"Jones"}]}我正在尝试执行以下pig脚本来加载json数据A=load'pigdemo/employeejson.json'usingJsonLoader('employees:{(firstName:chararray)},{(lastName:chararray)}');出现错误!!Unabletore

hadoop json firstName lastName 34 hive apache-pig hadoop2

hadoop - 设置 20TB 存储 : use normal file system or hadoop

我是一名年轻的研究人员，打算购买一台计算服务器用于(也许是“大”)数据分析。服务器将有20TB的硬盘空间。我目前的问题是我应该使用普通的linux文件系统还是hadoophdfs作为系统。谁能解释一下这两种选择的优缺点？最佳答案在单个节点(一台服务器)上安装HDFS确实没有意义。HDFS完全是关于分布数据，以便计算任务靠近数据运行，并拥有数据的冗余副本以能够容忍硬件故障。单个节点不会提供单一的HDFS优势。如果您有一个集群机器(例如10台服务器)那么是的，您可以问这个问题。照原样，HDFS不是一个选项。

hadoop normal section HDFS filesystems

hadoop - 如何在未安装的系统中使用 jar 文件运行 drill？

我正在使用Apachedrill1.8制作程序。我正在尝试在未安装drill的HDFS中运行该程序。我认为的方法是使用jar文件，drill包含的jar文件可以运行这个程序，因为它是在虚拟机中运行的。但我对这种方式没有信心。能行吗？如果这种方式可行，如何在jar文件中包含drill？如果不是，那是什么方式？还有一个问题，如何使用Java代码更改存储配置？最佳答案 drill或hdfs是否在同一台机器上运行并不重要。为什么需要创建一个jar。如果您使用Maven作为构建工具，请添加DrillJDBC驱动程序依赖项:org.apach

何在 hadoop drill section 34 jar apache-drill

hadoop - 从 HIVE 中的 REST API 访问数据

有没有办法创建一个配置单元表，其中该配置单元表的位置将是一个httpJSONRESTAPI？我不想每次都在HDFS中导入数据。最佳答案几年前我在一个项目中遇到过类似的情况。这是一种将数据从Restful摄取到HDFS的低调方式，然后您使用Hive分析来实现业务逻辑。我希望您熟悉核心Java，MapReduce(如果不是，您可以查看HortonworksDataFlow，HDF是Hortonworks的产品)。第1步:您的数据摄取工作流不应绑定(bind)到包含业务逻辑的Hive工作流。这应该根据您的要求(数据流的数量和速度)及时

hadoop HIVE import apache hiveql

hadoop - 如何将 Hadoop MapReduce 作业的输出作为值/键而不是键/值返回？

例如，典型的WordCountmapreduce可能会返回如下输出:hello3world4again1我想对输出进行稍微不同的格式化，以便它显示为:3hello4world1again我读过很多想要按值排序的帖子，答案建议在第一个输出上进行第二个mapreduce作业。但是，我不需要按值排序，并且多个键可能具有相同的值——我不希望将它们混为一谈。有没有一种简单的方法可以简单地切换键/值的打印顺序？看起来应该很简单。最佳答案按难易程度顺序考虑的两个选项是:在Reduce中切换Key/Value修改reduce的输出以切换键和值。

MapReduce hadoop IntWritable code

Hadoop 安装问题

使用ubuntu在oraclevirtualbox上安装hadoop后，一切正常。但是当我在浏览器上运行localhost:50070时，我在右下角得到了namenodehealth而不是LegacyUI选项，通过它我可以浏览文件系统。知道为什么吗？最佳答案可能您已经安装了Hadoop2.7.x，检查此修复以从NamenodeUI中删除LegacyUI选项-https://issues.apache.org/jira/browse/HDFS-6657此外，您现在应该在“浏览文件系统”下有一个名为“实用程序”的下拉菜单项。

Hadoop 安装 section https stackoverflow hadoop2 hadoop-streaming hadoop-plugins

56 57 585960 61 62