hadoop-mapreduce

hadoop - 从 Hive 中的 collect_list 结果构造映射

一系列UNIONALL生成我想用来构建MAP的键值对列表。所需的功能是这样的:selectid1,id2,map(collect_list(col))asmeasurementsfrom(selectid1,id2,"height"ascolunionallselectid1,id2,count(*)ascolfromtable1unionallselectid1,id2,"weight"ascolunionallselectid1,id2,count(*)ascolfromtable2)什么是正确的实现方式？我希望得到的结果是:id1id2measurements110{"heigh

collect_list collect id select section hadoop hive

hadoop - Apache HAWQ 生产使用

我不知道还有什么地方可以问这个问题，所以我会在这里问，因为我认为这可以为future可能有类似问题的用户提供一个很好的引用。ApacheHAWQ是否有任何已知的生产用途(http://hawq.incubator.apache.org/)？我想将这项服务与Presto、Spark、Impala等其他服务进行比较。但除了漂亮的基准测试之外，我还没有发现它在现实世界中的任何用法。最后，如果您亲自使用过它，您的使用体验如何？最佳答案目前apachehawq没有独立的文档。但是社区正在将文档从pivotalhdb转移到apachehaw

hadoop Apache incubator section apache-spark hawq

hadoop - pig 第三高的薪水

如何在pig中获得第三高的薪水，即使它包含重复项。请帮我解决这个问题。输入:Sri30000Abhi15000SAS15000mansa18000asdf5262dnaj20000harda20000 最佳答案您可以使用RANK来实现这一点，并在不同的薪资关系中获得排名第三的记录。我将使用LIMIT。A=LOAD'data.txt'USINGPigStorage('\t')AS(name:chararray,salary:int);B=FOREACHAGENERATEA.Salary;C=DISTINCTB;D=ORDERCBYC

三高薪水 strong code pre hadoop apache-pig

hadoop - Spark 和 HBase 版本兼容性

我正在尝试集成Spark和Hbase1.2.4。我目前正在使用hadoop2.7.3。谁能告诉我哪个版本的Spark与HBase1.2.4兼容？最佳答案我正在使用spark1.6版和hbase1.2版。所以我认为spark版本1.6或1.6.x肯定可以与hbase1.2.4一起使用。关于hadoop-Spark和HBase版本兼容性，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questio

hadoop Spark section stackoverflow apache-spark hbase hadoop2

hadoop - PIG 中的 NOT IN 子句

我正在努力select*fromAwhereA.IDNOTIN(selectidfromB)(insql)sourcenew=LOAD'hdfs://HADOOPMASTER:54310/DVTTest/Source.txt'USINGPigStorage(',')as(ID:int,Name:chararray,FirstName:chararray,LastName:chararray,Vertical_Name:chararray,Vertical_ID:chararray,Gender:chararray,DOB:chararray,Degree_Percentage:char

hadoop PIG chararray strong 39 mapreduce apache-pig

hadoop - 无法在配置单元 server2 上模拟

我试图通过JDBC连接器连接到配置单元服务器2，但出现错误:'userxcantimpersonatey'我将这些属性添加到我的core-site.xml文件中:hadoop.proxyuser.hive.hosts*hadoop.proxyuser.hive.groups*此外，在hive-site.xml中我有:hive.server2.enable.doAstrueSettingthispropertytotruewillhaveHiveServer2executeHiveoperationsastheusermakingthecallstoit.我将我的身份验证设置为无，并且我

配置单 server2 property gt lt hadoop hive impersonation

hadoop - 初始化 Metron Grok 解析器时出错

我们使用Ambari创建了HDP和Metron集群。我们使用Kafka来获取数据。我们有kafkaproducerkafkatopics和kafkaconsumer。似乎所有的kafka工作都很好，但在Storm中我们遇到了如下错误:Error:Grokparserunabletoinitializegrokparser:Unabletoload/patterns/novafromeitherclasspathorHDFSatorg.apache.metron.parsers.GrokParser.init有谁知道为什么会出现这个错误？谢谢最佳答案

时出 hadoop section kafka apache-kafka apache-storm hortonworks-data-platform

hadoop - 如何从每个节点访问 hadoop-yarn 应用程序上的 hdfs？

如何在“HADOOP(2.5.2)YARN应用”中访问HDFS并从各个节点读写文件？我通常知道YARN应用程序运行在HDFS上。我没有可以回答这些基本问题的网站或文档，所以我想问一下。最佳答案 YARN应用程序在YARN中运行(或至少请求内存空间)，而不是HDFS。HDFS只是一个用于文件存储的文件系统。您使用多种工具进行读写，例如HadoopCLI、MapReduce、ApacheSpark等。例如CLI是hadoopfs-put/local-filehdfs://remote/file这些应用程序是否由YARN管理与HDFS文

hadoop hadoop-yarn section strong HDFS

Hadoop数据可视化

我是一名新的hadoop开发人员，我已经能够在单节点集群中安装和运行hadoop服务。问题出现在数据可视化过程中。当我需要使用像Tableau这样的数据可视化工具时，MapReducejar文件有什么用。我有一个结构化数据源，我需要在其中添加一层逻辑，以便数据在可视化过程中有意义。如果我要使用其他工具进行可视化，是否需要编写MapReduce程序？请阐明我如何处理这个问题。最佳答案这可能取决于您使用的Hadoop发行版以及存在的工具。这也取决于实际的数据准备任务。如果您不想自己实际编写map-reduce或spark代码，您可以

Hadoop 数据 strong section 配置单

sql - 如何将 ElasticSearch 查询传递给 hadoop

我正在从事一个允许在Hadoop上进行搜索的项目。它的工作原理是首先将查询传递给ES，然后将生成的ID传递回SQL，如下所示:SELECT...WHEREidin[1,24,383,2912,...]当我们有100或1000个ID传回SQL-on-Hadoop时，这很有效，但如果我们有100K或1M+id传回，则效果不佳。将结果集(id列表？)从ES传回SQL有哪些替代方法？最佳答案将所有elasticsearchid插入到一个单独的表中，然后将其与源表连接。例如CREATETABLEELASTIC_SEARCH_ID(idIN

ElasticSearch 传递 section 传回 strong sql hadoop presto

52 53 545556 57 58