草庐IT

data_block

全部标签

java.lang.ClassNotFoundException : org. openx.data.jsonserde.JsonSerDe 错误

我正在尝试使用iPython从Hive查询表。下面是我的代码的样子。sqlc=HiveContext(sc)sqlc.sql("ADDJARs3://x/y/z/jsonserde.jar")我首先创建一个新的配置单元上下文,然后尝试添加上面的jar。以下是我收到的错误消息。Py4JJavaError:Anerroroccurredwhilecallingo63.sql:java.lang.ClassNotFoundException:org.openx.data.jsonserde.JsonSerDe我还可以如何将此jar添加到Spark类路径? 最佳答案

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master,另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

scala - ClassNotFoundException : com. 数据 block .spark.csv.DefaultSource

我正在尝试使用sparkscala从Hive导出数据。但我收到以下错误。Causedby:java.lang.ClassNotFoundException:com.databricks.spark.csv.DefaultSource我的scala脚本如下所示。importorg.apache.spark.sql.hive.HiveContextvalsqlContext=newHiveContext(sc)valdf=sqlContext.sql("SELECT*FROMsparksdata")df.write.format("com.databricks.spark.csv").sa

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序,它从Kafka接收HDFS上的文件路径,应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处,因为执行程序可能在任何节点上运行,而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件,同时保持数据局部性?谢谢,丹尼尔 最佳答案 我不确定你打开文件的意思,如果你能分享一些代码会很有帮助,但如果你使用的是sc.textFile,那是一个RDD转换。转换被集群管理器安排为任务,因此不一定会从运行DStream转换的执行器节点执行。

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

java - 将输入 arff 文件拆分成更小的 block 以处理非常大的数据集

我正在尝试在mapreduce上运行weka分类器并加载甚至200mb的整个arff文件导致堆空间错误,所以我想将arff文件分成block,但问题是它必须维护block信息,即每个block中的arff属性信息,以便在每个映射器中运行分类器。这是我尝试拆分数据但效率不高的代码,Listsplits=newArrayList();for(FileStatusfile:listStatus(job)){Pathpath=file.getPath();FileSystemfs=path.getFileSystem(job.getConfiguration());//numberofbyte

hadoop - 基于文件大小的 block 和映射器

假设我有3个文件要存储在HDFS中并希望通过MapReduce读取它们。因此,在HDFS位置/omega/usecase/input中有3个文件,分别是file1.txt、file2.txt、file3.txt这3个文件的大小分别是file1.txt(64MB),file2.txt(32MB),file3.txt(1MB)还假设默认block大小为64MB,复制因子为3我想知道这3个文件将有多少个block,如果我编写一个MapReduce程序来读取输入目录/omega/usecase/input,将执行多少个映射器 最佳答案 HD

hadoop - Data locality 概念是否也适用于 Reducers?

我的理解:数据局部性的概念仅适用于Mapper,因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念?数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时,Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性? 最佳答案 不,数据局部性概念仅适用于MAPPERS。Reducer是根据par

hadoop - 如何从 Hadoop 中的一个特定机架获取 block 报告?

我想知道是否有可能只从hadoop中的一个机架获取block报告?我知道我可以使用以下命令获得整个区block的报告:hdfsfsck/-files-blocks-racks但是,当你的集群很大时,运行命令会花费很多时间。我只想查看位于特定机架中的block。有没有办法只从一个机架上获取报告?(即指定机架而不是路径)提前致谢 最佳答案 不,不幸的是你不能。您可以在上游提交JIRA以将其添加到hdfsfsck。但是,请记住,HDFS文件复制总是试图保留一个在不同的机架上复制以获得更好的容错性,因此即使您可以针对一个机架,您仍然指的是分

hadoop - pig : get data from hive table and add partition as column

我有一个分区的Hive表,我想将其加载到Pig脚本中,并且还想将分区添加为列。我该怎么做?Hive中的表定义:CREATEEXTERNALTABLEIFNOTEXISTStransactions(column1string,column2string)PARTITIONEDBY(datestampstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION'/path';pig脚本:%defaultINPUT_PATH'/path'A=LOAD'$INPUT_PATH'USINGPigStorage('|')AS(column1:cha