hadoop-worker

hadoop - 无法通过 Hive 1.2 中的 alter table 恢复分区

我无法在配置单元1.2上运行ALTERTABLEMY_EXTERNAL_TABLERECOVERPARTITIONS;，但是当我运行替代方案时MSCKREPAIRTABLEMY_EXTERNAL_TABLE它只是列出了分区'在HiveMetaStore中并且没有添加它。根据hive-exec的源代码，我可以在org/apache/hadoop/hive/ql/parse/HiveParser.g:1001:1下看到语法中没有用于RECOVER的标记匹配分区。如果有办法在Hive1.2上创建外部表后恢复所有分区，请告诉我。ALTERTABLEMY_EXTERNAL_TABLERECOVE

hadoop - 如何读取 pig 中的json数据？

我有以下类型的json文件:{"employees":[{"firstName":"John","lastName":"Doe"},{"firstName":"Anna","lastName":"Smith"},{"firstName":"Peter","lastName":"Jones"}]}我正在尝试执行以下pig脚本来加载json数据A=load'pigdemo/employeejson.json'usingJsonLoader('employees:{(firstName:chararray)},{(lastName:chararray)}');出现错误!!Unabletore

hadoop json firstName lastName 34 hive apache-pig hadoop2

hadoop - 设置 20TB 存储 : use normal file system or hadoop

我是一名年轻的研究人员，打算购买一台计算服务器用于(也许是“大”)数据分析。服务器将有20TB的硬盘空间。我目前的问题是我应该使用普通的linux文件系统还是hadoophdfs作为系统。谁能解释一下这两种选择的优缺点？最佳答案在单个节点(一台服务器)上安装HDFS确实没有意义。HDFS完全是关于分布数据，以便计算任务靠近数据运行，并拥有数据的冗余副本以能够容忍硬件故障。单个节点不会提供单一的HDFS优势。如果您有一个集群机器(例如10台服务器)那么是的，您可以问这个问题。照原样，HDFS不是一个选项。

hadoop normal section HDFS filesystems

hadoop - 如何在未安装的系统中使用 jar 文件运行 drill？

我正在使用Apachedrill1.8制作程序。我正在尝试在未安装drill的HDFS中运行该程序。我认为的方法是使用jar文件，drill包含的jar文件可以运行这个程序，因为它是在虚拟机中运行的。但我对这种方式没有信心。能行吗？如果这种方式可行，如何在jar文件中包含drill？如果不是，那是什么方式？还有一个问题，如何使用Java代码更改存储配置？最佳答案 drill或hdfs是否在同一台机器上运行并不重要。为什么需要创建一个jar。如果您使用Maven作为构建工具，请添加DrillJDBC驱动程序依赖项:org.apach

何在 hadoop drill section 34 jar apache-drill

hadoop - 从 HIVE 中的 REST API 访问数据

有没有办法创建一个配置单元表，其中该配置单元表的位置将是一个httpJSONRESTAPI？我不想每次都在HDFS中导入数据。最佳答案几年前我在一个项目中遇到过类似的情况。这是一种将数据从Restful摄取到HDFS的低调方式，然后您使用Hive分析来实现业务逻辑。我希望您熟悉核心Java，MapReduce(如果不是，您可以查看HortonworksDataFlow，HDF是Hortonworks的产品)。第1步:您的数据摄取工作流不应绑定(bind)到包含业务逻辑的Hive工作流。这应该根据您的要求(数据流的数量和速度)及时

hadoop HIVE import apache hiveql

hadoop - 如何将 Hadoop MapReduce 作业的输出作为值/键而不是键/值返回？

例如，典型的WordCountmapreduce可能会返回如下输出:hello3world4again1我想对输出进行稍微不同的格式化，以便它显示为:3hello4world1again我读过很多想要按值排序的帖子，答案建议在第一个输出上进行第二个mapreduce作业。但是，我不需要按值排序，并且多个键可能具有相同的值——我不希望将它们混为一谈。有没有一种简单的方法可以简单地切换键/值的打印顺序？看起来应该很简单。最佳答案按难易程度顺序考虑的两个选项是:在Reduce中切换Key/Value修改reduce的输出以切换键和值。

MapReduce hadoop IntWritable code

Hadoop 安装问题

使用ubuntu在oraclevirtualbox上安装hadoop后，一切正常。但是当我在浏览器上运行localhost:50070时，我在右下角得到了namenodehealth而不是LegacyUI选项，通过它我可以浏览文件系统。知道为什么吗？最佳答案可能您已经安装了Hadoop2.7.x，检查此修复以从NamenodeUI中删除LegacyUI选项-https://issues.apache.org/jira/browse/HDFS-6657此外，您现在应该在“浏览文件系统”下有一个名为“实用程序”的下拉菜单项。

Hadoop 安装 section https stackoverflow hadoop2 hadoop-streaming hadoop-plugins

hadoop - 将 MapR 安装到 20 节点集群的分步过程

我想知道将MapR安装到20节点集群上的分步过程，我还想拥有一个边缘节点。我没有使用Edge节点安装任何hadoop发行版。请帮忙。最佳答案你应该看看MapRinstalldocumentation.他们还有一个易于使用的UIinstaller. 关于hadoop-将MapR安装到20节点集群的分步过程，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/41163466/

分步 hadoop section noreferrer mapr

hadoop - 插入分桶表产生空表

我正在尝试插入分桶表。当我运行查询时，一切看起来都很好，我在报告中看到了一些写入的字节数。Hive日志中也没有任何错误。但是当我查看表格时，我什么都没有:(创建表测试(测试日期字符串，test_id字符串,test_title字符串,)聚类为(文本日期)进入100个桶行格式分隔由“|”终止的字段由'\n'终止的行存储为兽人地点'hdfs://myserver/data/hive/databases/test.db/test'TBL属性('skip.header.line.count'='1','交易'='真')插入测试.test从test2.green中选择“test_date”、“t

hadoop 插入 test br code hive hdfs hiveql orc

hadoop - 并行停用多个 Hadoop DataNode

我要更换HadoopCDH5.7集群中的多台机器。我首先添加了一些新机器并停用了相同数量的现有数据节点。我注意到在停用节点时block被标记为复制不足。这是否意味着我在停用多个节点时会面临风险？我可以并行停用所有节点吗？有没有更好的方法来更换所有机器？谢谢! 最佳答案很明显，当一个节点关闭(或删除)时，数据复制不足。当您添加新节点并重新平衡时，这将自动修复。实际发生了什么？假设集群上的复制因子是3。当一个节点退役时，存储在其上的所有数据都消失了，该数据的复制因子现在是2(因此处于复制状态)。现在，当您添加一个新节点并重新平衡时，丢

DataNode hadoop section strong 并重 cloudera cloudera-cdh

64 65 666768 69 70