草庐IT

apache-spark-1.3

全部标签

hadoop - java.lang.NoClassDefFoundError : org/apache/accumulo/core/client/Instance 错误

我正在使用小程序将数据写入Accumulo。程序在手动添加jars时运行。但是,当使用Maven构建时,使用手册中使用的相同版本会抛出:java.lang.NoClassDefFoundError:org/apache/accumulo/core/client/Instance.我该如何解决? 最佳答案 您的作业将在MR网络中的所有节点上运行。您需要在所有节点上安装适当的jar才能使其正常工作。正如您所注意到的,另一种方法是将所有内容都包含到一个uberjar中,其中包含您需要的所有内容。这样当你的工作被运送到每个节点时,你将拥有你

eclipse - java.lang.NoClassDefFoundError : org/apache/commons/logging/LogFactory in Hadoop 1. 2.1 Kmean算法

我尝试从http://codingwiththomas.blogspot.kr/2011/05/k-means-clustering-with-mapreduce.html但是有错误log4j:WARNErrorduringdefaultinitializationjava.lang.NoClassDefFoundError:org/apache/log4j/AppenderSkeletonatjava.lang.ClassLoader.findBootstrapClass(NativeMethod)atjava.lang.ClassLoader.findBootstrapClassO

apache - Hadoop 客户端无法连接到服务器

我设置了一个2节点Hadoop集群,运行start-df.sh和start-yarn.sh运行良好(即所有预期的服务都在运行,日志中没有错误)。但是,当我实际尝试运行一个应用程序时,有几个任务失败了:15/04/0115:27:53INFOmapreduce.Job:TaskId:attempt_1427894767376_0001_m_000008_2,Status:FAILED我检查了yarn和datanode日志,但那里没有任何报告。在userlogs中,slave节点上的syslogs文件都包含如下错误信息:2015-04-0115:27:21,077INFO[main]org

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

hadoop - Apache Pig - 如何提取记录集

我是ApachePig的新用户,我有以下数据order=0012,1,23order=0013,2,34,0015,1,45order=0011,1,456...我试图提取到以下记录0012,1,230013,2,340015,1,450011,1,456...下面是我试过的代码a=LOAD'a.txt'UsingTextLoader()AS(line:chararray);b=FOREACHaGENERATEFLATTEN(REGEX_EXTRACT_ALL(line,'order=((\\d+),(\\d+),(\\d+))+'))AS(order_item:chararray,o

hadoop - Apache Hive 中的字符集、口音、特殊字符

问题我的Hive表在某些行值中包含特殊字符(法语)时遇到了很多问题。基本上,在查询数据(通过HiveCLI或其他方法)时,所有特殊字符(如字母或其他变音符号上的重音)都会变成纯粹的乱码(各种奇怪的符号)。问题不在于列名,而在于实际的行值和内容。例如,我没有打印“Variat°”或任何其他特殊字符或重音符号,而是得到了这个结果(使用select语句时):Variat�cancel信息与sessionHive表是外部的,来自HDFS中以字符集iso-8859-1编码的CSV文件。更改原始文件编码字符集不会产生更好的结果。我在RedHatEnterprise6上使用Hortonworks

hadoop - 如何使用 hadoop 自定义输入格式调整 Spark 应用程序

我的spark应用程序使用自定义hadoop输入格式处理文件(平均大小为20MB),并将结果存储在HDFS中。以下是代码片段。Configurationconf=newConfiguration();JavaPairRDDbaseRDD=ctx.newAPIHadoopFile(input,CustomInputFormat.class,Text.class,Text.class,conf);JavaRDDmapPartitionsRDD=baseRDD.mapPartitions(newFlatMapFunction>,myClass>(){//mylogicgoeshere}//f

hadoop - Apache Spark JavaSchemaRDD 是空的,即使它的输入 RDD 有数据

我有大量超过40列的制表符分隔文件。我想对其应用聚合,只选择几列。我认为ApacheSpark是最好的选择,因为我的文件存储在Hadoop中。我有以下程序publicclassMyPOJO{intfield1;Stringfield2;etc}JavaSparkContextsc;JavaRDDdata=sc.textFile("path/input.csv");JavaSQLContextsqlContext=newJavaSQLContext(sc);JavaRDDrdd_records=sc.textFile(data).map(newFunction(){publicRecor

hadoop - 在 Apache pig 中读取压缩 (.xz) 文件

我正在尝试读取使用hadoop-xz压缩的.xz文件使用pig脚本的编解码器。我试过的示例代码是,REGISTERhadoop-xz-1.4.jarSEToutput.compression.enabledtrue;SEToutput.compression.codecio.sensesecure.hadoop.xz.XZCodec;msg=LOAD'pigtest/newXZ.xz'USINGPigStorage();STOREmsgINTO'pigtest/output'USINGPigStorage();DUMPmsg;结果仍然是压缩格式。我做错了吗,还是我必须在pig里面使用X

scala - Spark 流式传输多个套接字源

我是Spark的新手。对于我的项目,我需要合并来自不同端口上不同流的数据。为了测试我做了一个练习,目的是打印来自不同端口的流的数据。下面你可以看到代码:objecthello{defmain(args:Array[String]){valssc=newStreamingContext(newSparkConf(),Seconds(2))vallines9=ssc.socketTextStream("localhost",9999)vallines8=ssc.socketTextStream("localhost",9998)lines9.print()lines8.print()ssc