草庐IT

spark-avro

全部标签

mongodb - Spark with Mongo DB : java. lang.IncompatibleClassChangeError:实现类

我正在尝试使用Scala将示例MongoDB集合加载到Spark,然后将RDD保存到文本文件。以下是我的代码:valsc=newSparkContext(conf)valmongoConfig=newConfiguration()mongoConfig.set("mongo.input.uri","mongodb://localhost:27017/myDB.myCollectionData")valsparkConf=newSparkConf()valdocuments=sc.newAPIHadoopRDD(mongoConfig,//ConfigurationclassOf[Mon

file - Avro hadoop随机访问文件

我想知道Avro是否支持随机访问或查询。例如,如果我创建一个名为B.avro的Avro文件,其中包含2个二进制文件X.png和Y.png,是否可以直接访问Y.png?无需遍历整个文件,如果有一种方法可以直接使用文件key访问文件内容,那就太好了。如果没有,是否有任何其他数据结构允许我在hadoop环境sequenceFiles,HAR中执行此操作?我基本上使用Avro作为处理hadoop中大量小文件的一种方式,但我也想查询这些文件,这使得将它们存储在更大的集合中变得困难。谢谢。 最佳答案 我不知道是否有任何OOTB特性可以让我们通过

hadoop - 图像的 Avro 文件类型?

我尝试...在Hadoop中计算这种情况。最好的文件格式是Avro还是SequenceFile,以防在HDFS中存储图像并在之后使用Python处理它们?SequenceFile是面向键值的,所以我认为Avro文件会更好用? 最佳答案 我使用SequenceFile在HDFS中存储图像,效果很好。Avro和SequenceFile都是二进制文件格式,因此它们可以高效地存储图像。作为SequenceFile中的键,我通常使用原始图像文件名。SequenceFile用于许多图像处理产品,例如OpenIMAJ。您可以使用现有工具处理Seq

hadoop - 在 Amazon S3 中创建由 Avro 文件支持的 Hive 表时出现问题

我一直在尝试在S3中创建一个由Avro文件支持的Hive表。最初,我认为这可能相对简单,但我遇到了以下错误。这是创建表的命令:setfs.s3.awsAccessKeyId=ACCESS_KEY_ID;setfs.s3.awsSecretAccessKey=SECRET_ACCESS_KEY;usesome_database;CREATEEXTERNALTABLEexperiment_with_s3_backed_dataROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'WITHSERDEPROPERTIES('av

Spark大数据分析与实战笔记(第二章 Spark基础-05)

文章目录每日一句正能量前言2.5启动Spark-Shell2.5.1运行Spark-Shell命令2.5.2运行Spark-Shell读取HDFS文件后记每日一句正能量成长是一条必走的路路上我们伤痛在所难免。前言在大数据处理和分析领域,Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架,Spark为开发人员提供了丰富的API和工具来处理和分析大规模数据集。其中,Spark-Shell是Spark提供的一个交互式工具,它基于Scala语言,使得用户能够更加灵活和便捷地与Spark进行交互。通过Spark-Shell,我们可以直接在命令行终端中编

java - 使用 Spark [`cartesian()` 问题创建邻居矩阵]

我是Spark初学者,我面临以下问题:我有一个项目集合(假设它们是笛卡尔坐标或二维点),我想获取每个项目的附近元素。决定一个项目是否靠近另一个取决于一个函数(假设我们想要所有欧几里德距离小于给定值的点)。当然,获得一个点的邻居是微不足道的,我已经做到了。只需过滤项目即可。我不能做的是为集合中的所有点获取它们,我不知道如何有效地做到这一点。我在这里写了一个我想从一个小数据集中得到的结果的例子,以更清楚地说明我的需求:sourceData=[(0,1),(1,1),(0,0),(50,10),(51,11)]result=[(0,1)=>[(1,1),(0,0)],(1,1)=>[(0,1

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序,它从Kafka接收HDFS上的文件路径,应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处,因为执行程序可能在任何节点上运行,而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件,同时保持数据局部性?谢谢,丹尼尔 最佳答案 我不确定你打开文件的意思,如果你能分享一些代码会很有帮助,但如果你使用的是sc.textFile,那是一个RDD转换。转换被集群管理器安排为任务,因此不一定会从运行DStream转换的执行器节点执行。

scala - 如何使用 spark 生成大量随机整数?

我需要很多随机数,每行一个。结果应该是这样的:24324243244234234423423413103131310313...所以我写了这个spark代码(对不起,我是Spark和scala的新手):importutil.Randomimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectRandomIntegerWriter{defmain(args:Array[String]){if(args.length")Syst

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

hadoop - 如何使用 hadoop 自定义输入格式调整 Spark 应用程序

我的spark应用程序使用自定义hadoop输入格式处理文件(平均大小为20MB),并将结果存储在HDFS中。以下是代码片段。Configurationconf=newConfiguration();JavaPairRDDbaseRDD=ctx.newAPIHadoopFile(input,CustomInputFormat.class,Text.class,Text.class,conf);JavaRDDmapPartitionsRDD=baseRDD.mapPartitions(newFlatMapFunction>,myClass>(){//mylogicgoeshere}//f