草庐IT

mh_execute_header

全部标签

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR,我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时,一切都完美无缺。然而,当我针对我的完整数据集运行它时,在我的工作中花费了一段(随机)时间,我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中,我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst

hadoop - 在 vectorized.execution.enabled 时将 ORC 文件格式与 Hive 一起使用时发生 ClassCastException

我有一个具有以下属性的配置单元表-ORC存储格式事务性=true按4个键分区-年、月、日、小时由groupingKey存储我正在使用HiveStreaming将数据直接填充到表中。现在我的问题是-我正在尝试运行以下查询selectcount(*)fromtable_name;我遇到异常Causedby:java.lang.ClassCastException:org.apache.hadoop.hive.ql.io.orc.OrcStruct$OrcStructInspectorcannotbecasttoorg.apache.hadoop.hive.serde2.objectinsp

android - 将 Apache Pig 导入 Android 项目导致 "Unable to execute dex: Java heap space"错误

我试图在我的Android应用程序中序列化一个TreeMap,这样我就可以将它保存到一个SharedPreferences,如thisStackOverflowQ&A中所建议的那样.它用于ArrayList,但我还是捕获了机会。重点是使用ApachePig项目中的ObjectSerializer类将TreeMap序列化为String并将其保存在共享首选项中的该数据类型中。然而,当我在不使用Hadoop的情况下导入.jar后,我就开始遇到很多错误。当我在模拟器中运行我的应用程序时(我使用的是Eclipse),我的IDE底部的状态栏永远不会超过消息“正在启动[应用程序名称]100%...”

hadoop - "Child Error"in Executing stream Job on multi node Hadoop cluster (cloudera distribution CDH3u0 Hadoop 0.20.2)

我在8节点Hadoop集群上工作,我正在尝试使用指定的配置执行一个简单的流作业。hadoopjar/usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2-cdh3u0.jar\-Dmapred.map.max.tacker.failures=10\-Dmared.map.max.attempts=8\-Dmapred.skip.attempts.to.start.skipping=8\-Dmapred.skip.map.max.skip.records=8\-Dmapred.skip.mode.enabled=tru

java - 当 hive.execution.engine 值其 tez 时出现 NoSuchMethodError

我正在使用hive1.0.0和apachetez0.4.1当我将配置单元配置为使用tez时,出现异常。在hive-site.xml中,当hive.execution.engine值为mr时,它工作正常。但是如果我将它设置为tez我会得到这个错误:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.tez.mapreduce.hadoop.MRHelpers.updateEnvBasedOnMRAMEnv(Lorg/apache/hadoop/conf/Configuration;Ljava/util/Map;)Va

hadoop - hive 抛出不正确的 header 检查错误

出于评估目的,我正在开发一个hadoop集群,并且正在使用找到的QWI示例here.我在Hive中创建了我的表:CREATEEXTERNALTABLEqwi2(periodicityvarchar(256)COMMENT'Periodicityofreport',seasonadjvarchar(256)COMMENT'SeasonalAdjustmentIndicator',geo_levelvarchar(256)COMMENT'Group:Geographiclevelofaggregation',geographyvarchar(256)COMMENT'Group:Geogra

hadoop - Spark SQL : HiveContext don't ignore header

我有一个spark作业,它从外部Hive表中读取数据并进行一些转换并将数据重新保存到另一个内部Hive表中valsparkConf=newSparkConf().setAppName("BulkMergeDailyLoadJob")valsparkContext=newSparkContext(sparkConf)valsqlContext=newHiveContext(sparkContext)//DataIngestionvalmy_df=sqlContext.sql("select*fromtest")//Transformation......//SaveDataintoHiv

hadoop - 在 Pig 中处理 tar header

如果我在一堆*.tar.gz文件上运行Pig,PigStorage会很好地处理解压缩,但不会处理tar文件之间的标题行。有没有简单的方法来处理这个问题?还是我必须编写自己的RecordReader?这会是什么样子? 最佳答案 您可以使用tar即时清理header。在您的Pig脚本中,执行以下操作:--CalltotarthatreadsfromstdinandoutputstostdoutDEFINECLEANTAR`tarxvf--O`;--Now,removetarheadersfromyourdatacleaned=STREA

grails - 亚马逊 Redshift : query execution hangs

我使用amazonredshift,有时查询执行挂起,没有任何错误消息,例如此查询将执行:selectextract(yearfromdate),extract(weekfromdate),count(*)fromsome_tablewheredate>'2015-01-0100:00:00'anddate这不是:selectextract(yearfromdate),extract(weekfromdate),count(*)fromsome_tablewheredate>'2014-01-0100:00:00'anddate但只有当我将项目部署到服务器并且在我的本地计算机上执行所有

hadoop - 无法更改或删除影响很大的分区表 - 由 : MetaException: Timeout when executing 引起

我有几个impala分区表,它们有超过50k的分区,除了HiveMetastore操作,如DROP和ALTER...RENAME,我遇到此错误消息:Query:droptablecarsERROR:ImpalaRuntimeException:Errormaking'dropTable'RPCtoHiveMetastore:CAUSEDBY:MetaException:Timeoutwhenexecutingmethod:drop_table_with_environment_context;600003msexceeds600000ms不知道是不是内存的问题?或者这是正常的,我应该调