草庐IT

valid_input

全部标签

java - 配置单元顶点失败 : killed/failed due to:ROOT_INPUT_INIT_FAILURE Caused by: java. lang.NullPointerException

我正在查询一个表,一个简单的计数(*)并收到以下错误:Vertexfailed,vertexName=Map1,vertexId=vertex_1486982569467_0809_3_00,diagnostics=[Vertexvertex_1486982569467_0809_3_00[Map1]killed/faileddueto:ROOT_INPUT_INIT_FAILURE,VertexInput:table_nameinitializerfailed,vertex=vertex_1486982569467_0809_3_00[Map1],java.lang.RuntimeE

arrays - 配置单元 : ParseException line 3:23 cannot recognize input near 'from'

我试图创建这个表:createtabletmp_test(id_string,myelementarray>)STOREDASPARQUETLOCATION'/donne/tmp_test'我有这个错误:编译语句时出错:失败:ParseException行3:23无法识别列规范中“来自”“:”“字符串”附近的输入。我如何转义单词“from”,因为我必须使用这个词?谢谢你的帮助 最佳答案 FROM是Hive中的保留关键字。使用反引号(`)来引用它,createtabletmp_test(id_string,myelementarray

hadoop - Druid 批量索引 inputSpec 类型粒度,错误为 "no input paths specified in job"

我正在按照此处编写的说明进行操作:http://druid.io/docs/0.9.2/ingestion/batch-ingestion.html(滚动到“InputSpecspecification”,寻找“granularity”)。我的索引任务JSON中有:"inputSpec":{"type":"granularity","dataGranularity":"DAY","inputPath":"hdfs://hadoop:9000/druid/events/interview","filePattern":".*","pathFormat":"'y'=yyyy/'m'=MM/

hadoop - 在配置单元 "Unable to retrieve URL for Hadoop Task logs. Does not contain a valid host:port authority: local"上出现错误

在涉及mapreduce的hive上执行任何查询时,我收到此错误。“UnabletoretrieveURLforHadoopTasklogs.Doesnotcontainavalidhost:portauthority:local” 最佳答案 报告的异常出现在旧版本的Hadoop中(即YARN之前)。大多数情况下,您使用的是旧版本的Hadoop。当mapred.job.tracker的值出现异常参数在local中设置为“mapred-site.xml”相反,它应该是:. 关于hadoop

sql - 失败 : ParseException line 1:36 cannot recognize input near '1987'

我正在尝试用它在Hive中创建一个外部表CREATEEXTERNALTABLEIFNOTEXISTS1987(YEARINT,MONTHINT,DAYOFMONTHINT,DAYOFWEEKINT,DEPTIMEINT,CRSINT,ARRTIMETIME,CARRIERSTRING,FLIGHTNUMINT,TAILNUMSTRING,ACTUALELAPSEDINT,CRSELAPSEDINT,AIRTIMEINT,ARRDELAYINT,DEPDELAYINT,ORIGINSTRING,DESTSTRING,DISTANCEINT,TAXIININT,TAXIOUTINT,CAN

hadoop - CDH5 Hue Hive — 蜂蜡服务器 : Error opening session: Failed to validate proxy privilage of hue for admin

我通过Kerberos设置了一个具有安全性的Hadoop集群,Hive已经启用了Sentry。我对Hue-Hive(Beeswax)Editor有疑问。Hue无法在hive-server2日志中加载来自hive的数据和信息:2014-04-0311:36:39,814WARNthrift.ThriftCLIService(ThriftCLIService.java:GetSchemas(364))-Errorgettingcatalogs:org.apache.hive.service.cli.HiveSQLException:InvalidSessionHandle:SessionH

hadoop - Airflow 失败 : ParseException line 2:0 cannot recognize input near

我正在尝试在Airflow上运行测试任务,但我不断收到以下错误:FAILED:ParseException2:0cannotrecognizeinputnear'create_import_table_fct_latest_values''.''hql'这是我的AirflowDag文件:importairflowfromdatetimeimportdatetime,timedeltafromairflow.operators.hive_operatorimportHiveOperatorfromairflow.modelsimportDAGargs={'owner':'raul','s

Hadoop MapReduce : Is it possible to only use a fraction of the input data as the input to a MR job?

我的输入数据的关键类是WritableComparable,它以MapFile的形式存在。有没有什么方法可以设置最小和最大键值,并且只将记录传输到键值介于两者之间的映射器? 最佳答案 这是不可能的。因为对于map-reduce作业,我们只是指定输入。我们可以做的一件事是,在映射器中编写一个条件。如果键是黑白最小值和最大值,则只处理键值对并将输出发送到reducer。否则,什么都不做。但即使在这种情况下,我们的map阶段也会处理所有输入,而reduce阶段只会处理我们指定的键范围。更好的方法:当在给定输入上运行map-reduce作业

hadoop - Cloudera 管理器 "Memory Overcommit Validation Threshold"

我目前有一个由3台机器组成的集群,它们都在运行Ubuntu,并且已经使用ClouderaManager进行了配置。查看集群后,我发现其中两台机器出现错误“MemoryOvercommitValidationThreshold”。一种是在机器只有3.8GB的物理内存时使用6.3GB的内存,另一种是在机器只有7.8GB的物理内存时使用11.6GB的内存。我认为这是因为这两个都被设置为数据节点和名称节点,但我不确定如何使它只使用可用的内存而不交换。我已经在sysctl.conf文件中将swappiness设置为0。我无法为名称节点使用另一台机器或向机器添加任何内存。知道如何降低内存使用量,以

python - python : os. environ ["map_input_file"中的 MapReduce ] 在 map.py 中不起作用

这是我第一次用python学习HadoopMapReduce。为了学习如何连接两个文件,我写了一个map.py来获取两个文件的文件名。这里有两个CSV文件:worksheet1.csvsno,name1,name12,name23,name34,name4worksheet2.csvsno,courseno,grade1,1,801,2,902,1,822,2,95map.py:#!/bin/bash#-*-coding:utf-8-*-importosimportsysdefmapper():filepath=os.environ["map_input_file"]filename=