Hadoop

HIVE 表中的 JSON 数据上传给出 NoViableAltException/PraseException

我的Json在下面。我必须将此JSON加载到配置单元中，并且必须查询一些详细信息。{"id":"1234","pdid":"abcd","summary":{"tripStartTimestamp":1485263310528,"tripEndTimestamp":0,"status":10,"totalGPSDistanceMetres":0,"avgGPSSpeed":0,"maxGPSSpeed":0,"avgInstMileage":0,"totalHaltTimeSeconds":0,"totalIdlingTimeSeconds":0,"totalRunningTimeMi

NoViableAltException PraseException int 34 struct json hadoop hive

hadoop - PIG 中的 NOT IN 子句

我正在努力select*fromAwhereA.IDNOTIN(selectidfromB)(insql)sourcenew=LOAD'hdfs://HADOOPMASTER:54310/DVTTest/Source.txt'USINGPigStorage(',')as(ID:int,Name:chararray,FirstName:chararray,LastName:chararray,Vertical_Name:chararray,Vertical_ID:chararray,Gender:chararray,DOB:chararray,Degree_Percentage:char

hadoop PIG chararray strong 39 mapreduce apache-pig

hadoop - 无法在配置单元 server2 上模拟

我试图通过JDBC连接器连接到配置单元服务器2，但出现错误:'userxcantimpersonatey'我将这些属性添加到我的core-site.xml文件中:hadoop.proxyuser.hive.hosts*hadoop.proxyuser.hive.groups*此外，在hive-site.xml中我有:hive.server2.enable.doAstrueSettingthispropertytotruewillhaveHiveServer2executeHiveoperationsastheusermakingthecallstoit.我将我的身份验证设置为无，并且我

配置单 server2 property gt lt hadoop hive impersonation

hadoop - 初始化 Metron Grok 解析器时出错

我们使用Ambari创建了HDP和Metron集群。我们使用Kafka来获取数据。我们有kafkaproducerkafkatopics和kafkaconsumer。似乎所有的kafka工作都很好，但在Storm中我们遇到了如下错误:Error:Grokparserunabletoinitializegrokparser:Unabletoload/patterns/novafromeitherclasspathorHDFSatorg.apache.metron.parsers.GrokParser.init有谁知道为什么会出现这个错误？谢谢最佳答案

时出 hadoop section kafka apache-kafka apache-storm hortonworks-data-platform

hadoop - 如何从每个节点访问 hadoop-yarn 应用程序上的 hdfs？

如何在“HADOOP(2.5.2)YARN应用”中访问HDFS并从各个节点读写文件？我通常知道YARN应用程序运行在HDFS上。我没有可以回答这些基本问题的网站或文档，所以我想问一下。最佳答案 YARN应用程序在YARN中运行(或至少请求内存空间)，而不是HDFS。HDFS只是一个用于文件存储的文件系统。您使用多种工具进行读写，例如HadoopCLI、MapReduce、ApacheSpark等。例如CLI是hadoopfs-put/local-filehdfs://remote/file这些应用程序是否由YARN管理与HDFS文

hadoop hadoop-yarn section strong HDFS

java - 如何使用 oozie 协调器延迟工作流操作

我有一个oozie协调员和工作流程工作，当我的工作流程操作之一完成时，我需要在一段时间后开始下一个操作，比如50分钟。我可以从oozie工作流或oozie协调器配置它等待一段时间来执行下一个操作(取决于之前的操作和之前启动的一些异步任务)。协调器xml${exampleDir}/ods-ds-cms-workflow.workflownameNode${nameNode}jobTracker${jobTracker}exampleDir${nameNode}/custom/oozie工作流.xml${jobTracker}${nameNode}mapred.job.queue.name

协调器 oozie lt gt 34 java hadoop job-scheduling oozie-coordinator

scala - HDFS : java. io.FileNotFoundException : File does not exist: name. _COPYING

我正在使用Scala处理SparkStreaming。我需要使用此行从HDFS目录动态读取.csv文件:vallines=ssc.textFileStream("/user/root/")我使用以下命令行将文件放入HDFS:hdfsdfs-put./head40k.csv它适用于相对较小的文件。当我尝试使用更大的一个时，出现此错误:org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException):Filedoesnotexist:/user/root/head800k.csv._COPYING我能理解为什么，但我不

FileNotFoundException COPYING apache 34 import scala hadoop apache-spark hdfs spark-streaming

Hadoop数据可视化

我是一名新的hadoop开发人员，我已经能够在单节点集群中安装和运行hadoop服务。问题出现在数据可视化过程中。当我需要使用像Tableau这样的数据可视化工具时，MapReducejar文件有什么用。我有一个结构化数据源，我需要在其中添加一层逻辑，以便数据在可视化过程中有意义。如果我要使用其他工具进行可视化，是否需要编写MapReduce程序？请阐明我如何处理这个问题。最佳答案这可能取决于您使用的Hadoop发行版以及存在的工具。这也取决于实际的数据准备任务。如果您不想自己实际编写map-reduce或spark代码，您可以

Hadoop 数据 strong section 配置单

sql - 如何将 ElasticSearch 查询传递给 hadoop

我正在从事一个允许在Hadoop上进行搜索的项目。它的工作原理是首先将查询传递给ES，然后将生成的ID传递回SQL，如下所示:SELECT...WHEREidin[1,24,383,2912,...]当我们有100或1000个ID传回SQL-on-Hadoop时，这很有效，但如果我们有100K或1M+id传回，则效果不佳。将结果集(id列表？)从ES传回SQL有哪些替代方法？最佳答案将所有elasticsearchid插入到一个单独的表中，然后将其与源表连接。例如CREATETABLEELASTIC_SEARCH_ID(idIN

ElasticSearch 传递 section 传回 strong sql hadoop presto

sql - 将简化的 ES 查询结果传递给 SQL

这是HowtopassElasticSearchquerytohadoop的后续问题.基本上，我想在ElasticSearch中进行全文搜索，然后将结果集传递给SQL以运行聚合查询。这是一个例子:假设我们在具有10B条记录的财务数据库中搜索“Terminator”。它具有以下匹配项:“终结者”(100万个结果)“终结者2”(1000万个结果)“XJ4-227”(1个结果==>这里“终结者”在标题的概要中)我们不会传回10+Mid，而是传回以下“简化查询”——...WHEREnamein('Terminator','Terminator2','XJ4-227')我们如何编写这样的算法来将

传递 sql section noreferrer elasticsearch hadoop lucene

66 67 686970 71 72