草庐IT

run_test

全部标签

java - SparkOnHBase : NullPointerException during build tests "distributedScan"

我对Hadoop、Spark和HBase还很陌生。我正在尝试构建SparkOnHBasemvncleanpackage(ApacheMaven3.3.3)库但是我在构建过程中遇到了以下失败的测试:-distributedScantotestHBaseclient***FAILED***java.lang.NullPointerException:atorg.apache.hadoop.net.DNS.reverseDns(DNS.java:92)atorg.apache.hadoop.hbase.mapreduce.TableInputFormatBase.reverseDNS(Tab

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS

hadoop - Hive 给出 SemanticException [错误 10014] : when Running my UDF

我有一个执行GeoIP查找的配置单元UDF。publicstaticTextevaluate(TextinputFieldName,Textoption,TextdatabaseFileName){StringinputField,fieldOption,dbFileName,result=null;inputField=inputFieldName.toString();fieldOption=option.toString();dbFileName=databaseFileName.toString();ExtractDataeed=newExtractData();try{res

scala - 停止 Spark Streaming : exception in the cleaner thread but it will continue to run

我正在开发一个Spark-Streaming应用程序,我只是想获得一个KafkaDirectStream工作的简单示例:packagecom.usernameimport_root_.kafka.serializer.StringDecoderimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.streaming.kafka._importorg.apache.spark.streaming.{Seconds,StreamingContext}objectMyAppextendsApp{valtopic=args(

hadoop - "Container is running beyond physical memory limits"

我正在从事一项工作,其中Hive查询使用R文件,分布在集群上以在每个节点上运行。像那样:ADDFILEShdfs://path/reducers/my_script.RSEThive.mapred.reduce.tasks.speculative.execution=false;SETmapred.reduce.tasks=80;INSERTOVERWRITETABLEfinal_output_tablePARTITION(partition_column1,partition_column2)SELECTselected_column1,selected_column2,partit

hadoop - org.apache.hadoop.mapred.YarnChild : Error running child : java. lang.OutOfMemoryError: Java 堆空间

我有一个90MB的snappy压缩文件,我试图将其用作AWSEMR中AMI3.0.4上的Hadoop2.2.0的输入。我的记录阅读器在尝试读取文件时立即收到以下异常:2014-05-0614:25:34,210FATAL[main]org.apache.hadoop.mapred.YarnChild:Errorrunningchild:java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.hadoop.io.compress.BlockDecompressorStream.getCompressedData(BlockDecompre

testing - 使用 Hive 进行数据测试

我们的项目要求将数据从源加载到HDFS目标目录。而且我们必须验证数据转换(从源到目标)作为转换规则。他们为我们提供了源表(单个平面文件/表)和目标表的平面文件。我们必须通过Hive进行数据验证我们如何做到这一点,其中是否有任何自动化范围。我对这项Hadoop技术非常陌生。请帮帮我 最佳答案 尝试以下步骤来验证数据-1-编写自定义UDF并对行应用验证规则,您可以使用REGEX在UDF中编写验证规则。2-编写自定义Serde或InputFOrmat以在加载Hive表时验证数据。3-尝试MapreduceJob直接进行数据验证。如果您的源

hadoop - 如何在 HDP 2.2 中安装 hadoop-examples* 和 hadoop-test* jar?

如何在HortonworksDataPlatform2.2上安装hadoop-examples*和hadoop-test*jar?这些jar在任何服务器上都不存在。我需要安装其他软件包吗?我找到了一个reference也就是说,它们应该位于/usr/share/hadoop,但该目录在我的集群中的任何节点上都不存在。 最佳答案 对于HDP2.2,大多数内容都移到了/usr/hdp下,所以这些可能就是您要找的内容。[hdpdemo@hdp-demo-mas5hdp]$pwd/usr/hdp[hdpdemo@hdp-demo-mas5h

Hadoop,线程 "main"java.lang.IllegalStateException : Job in state DEFINE instead of RUNNING 中的 MapReduce 自定义 Java 计数器异常

错误是:Exceptioninthread"main"java.lang.IllegalStateException:JobinstateDEFINEinsteadofRUNNINGatorg.apache.hadoop.mapreduce.Job.ensureState(Job.java:294)atorg.apache.hadoop.mapreduce.Job.getCounters(Job.java:762)atcom.aamend.hadoop.MapReduce.CountryIncomeConf.main(CountryIncomeConf.java:41)atsun.re

hadoop - 在您的实现中是否有人覆盖了 Mapper run(Context) 方法?

https://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/Mapper.html#method.summaryrun(Context)org.apache.hadoop.mapreduce.Mapper方法a).ExpertuserscanoverridethismethodformorecompletecontrolovertheexecutionoftheMapper.目前run(Context)方法的默认行为是什么。如果我重写run(Context),根据文档会得到什么样的特殊控制?是否有人在您的