spark-avro_草庐IT

hadoop - 三个: Presto, hive和impala是否都支持Avro数据格式？

我很清楚Hive中可用的Serde来支持数据格式的Avro模式。熟悉将avro与hive结合使用。AvroSerDe比方说，我已经发现了这个问题。https://github.com/prestodb/presto/issues/5009我需要选择组件以实现快速执行周期。Presto和impala提供更短的执行周期。所以，任何人都请让我澄清一下在不同的数据格式中哪个更好。首先，我现在正在寻找Presto的avro支持。但是，让我们考虑以下存储在HDFS上的数据格式:Avro格式Parquet格式兽人格式哪个最适合用于不同数据格式的高性能。？？请提出建议。最

尝试将 Spark RDD 存储到 HBase 时出现 java.io.FileNotFoundException

我正在尝试将一些数据从HDFS加载到HBase，如下所示:Stringdir="/tmp/eloued";Configurationconfig=HBaseConfiguration.create();config.set(SequenceFileInputFormat.INPUT_DIR,dir);//serializationconfig.setStrings("io.serializations",config.get("io.serializations"),MutationSerialization.class.getName(),ResultSerialization.cl

时出 FileNotFoundException java org junit hadoop apache-spark hbase hdfs

r - 在sparklyr中使用spark_read_csv报错 "Invalid method csv for object"

我正在尝试从hdfs读取R中的数据。在使用sparklyr时，我遇到的一件事是破译错误消息……因为我不是Java程序员。考虑这个例子:在R中执行此操作创建鲍鱼数据框-鲍鱼是用于机器学习示例的数据集loadpivotalRpackage#containsabalonedataandcreatedataframeif(!require(PivotalR)){install.packages(PivotalR)}data(abalone)#sampleofdatahead(abalone)#exportdatatoaCSVfileif(!require(readr)){install.pac

spark_read_csv csv AbstractChannelHandlerContext java netty r hadoop apache-spark sparkr sparklyr

hadoop - 无法使用 spark API 写入 MySQL - pickle.PicklingError : Could not serialize object

我正在尝试使用分区任务中的sparkjdbc()函数写入MySQL表，该分区任务是通过执行foreachPartitions(test)调用的。然而，我收到了一个选择错误。我不确定问题是否是由于spark已经在任务内部并且spark将write.jdbc()作为任务本身运行。根据我的理解，这是不允许的？我可以从我的test()函数返回列表“行”并在main中调用write.jdbc()但我宁愿不必将数据结构收集回主控。代码和错误:代码:deftest(partition_iter):row=[]row.append({'col1':26,'col2':12,'col2':153.493

PicklingError serialize 34 python File hadoop apache-spark pyspark pyspark-sql

hadoop - 使用 s3 的 spark 加载 json 时 FS 错误

我正在尝试使用spark和magellanlibrary加载geojson文件我的加载代码是:valpolygons=spark.read.format("magellan").option("type","geojson").load(inJson)inJson是我在s3上的json的路径:s3n://bucket-name/geojsons/file.json堆栈跟踪错误:0.3instage0.0(TID3,ip-172-31-19-102.eu-west-1.compute.internal,executor1):java.lang.IllegalArgumentExcepti

hadoop spark scala apache DistributedFileSystem apache-spark amazon-s3 geospatial amazon-emr

hadoop - 在没有任何 hadoop 依赖项的情况下构建 spark

我找到了一些对-Phadoop-provided标志的引用，用于在没有hadoop库的情况下构建spark，但找不到如何使用它的好例子。我如何从源代码构建spark并确保它不会添加任何它自己的hadoop依赖项。看起来当我构建最新的spark时，它包含了一堆2.8.xhadoop的东西，这与我的集群hadoop版本冲突。最佳答案 Spark具有“使用用户提供的Hadoop预构建”的下载选项，因此以spark-VERSION-bin-without-hadoop.tgz命名如果你真的想构建它，那么从项目根目录运行它./build/m

hadoop spark section code apache-spark

scala - 读取保存在 HBase 列中的 AVRO 结构

我是Spark和HBase的新手。我正在处理HBase表的备份。这些备份位于S3存储桶中。我正在使用newAPIHadoopFile通过spark(scala)阅读它们，如下所示:conf.set("io.serializations","org.apache.hadoop.io.serializer.WritableSerialization,org.apache.hadoop.hbase.mapreduce.ResultSerialization")valdata=sc.newAPIHadoopFile(path,classOf[SequenceFileInputFormat[Im

取保 scala apache spark gt hadoop apache-spark hbase avro

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序，它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常，但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

Kerberos hadoop java apache apache-spark

hadoop - Hive 上的 Avro 动态模式更改

我有一些数据采用avro格式v1并存储在分区dt=yyyymmdd下的HDFS中。现在数据在同一个分区下维护了两个版本，v1和v2。为两个不同的版本维护一个hive表是否可行？最佳答案 Avrodefinesaschemaevolutionprotocol例如，如果v2只是添加了一个具有默认值的字段，然后使用该架构更新表，它可以读取全部旧数据，因为它会简单地返回默认值缺失的地方。如果你破坏了兼容性，你必须创建一个单独的表，然后将两者合并以获得一致的结果集关于hadoop-Hive上的

hadoop Hive section stackoverflow noreferrer avro hortonworks-data-platform jackson-dataformat-avro

hadoop - Spark - 如何在 HDFS 中重组目录

我有一个结构如下的目录:temp/Tweets/userId123/Tweets.csvtemp/Tweets/userId456/Tweets.csvtemp/Tweets/userId789/Tweets.csvtemp/Mentions/userId123/Mentions.csvtemp/Mentions/userId456/Mentions.csvtemp/Mentions/userId789/Mentions.csv...数据由数据实体的类型构成，我想由用户对其进行重组，如下所示:final/userId123/Tweets.csvfinal/userId123/Menti

何在 hadoop hdfsPath Mentions code apache-spark hdfs