草庐IT

spark-submit

全部标签

apache-spark - spark 中的 Hdfs 文件访问

我正在开发一个应用程序,我从hadoop读取一个文件,处理并将数据存储回hadoop。我很困惑什么应该是正确的hdfs文件路径格式。从sparkshell读取hdfs文件时,如valfile=sc.textFile("hdfs:///datastore/events.txt")它工作正常,我能够阅读它。但是当我将jar加到包含相同代码集的yarn时,它给出了错误提示org.apache.hadoop.HadoopIllegalArgumentException:Uriwithoutauthority:hdfs:/datastore/events.txt当我将名称节点ip添加为hdfs:

scala - 写入 HDFS - hive 时如何控制 Spark 流中的行数和/或输出文件大小?

使用SparkStreaming读取和处理来自Kafka的消息并写入HDFS-Hive。由于我希望避免创建许多垃圾文件系统的小文件,我想知道是否有办法确保最小文件大小和/或强制文件中输出行数最少的能力,除了超时。谢谢。 最佳答案 据我所知,无法控制输出文件中的行数。但是您可以控制输出文件的数量。控制它并考虑您的数据集大小可能会帮助您满足您的需求,因为您可以计算输出中每个文件的大小。您可以使用coalesce和repartition命令执行此操作:df.coalesce(2).write(...)df.repartition(2).w

apache-spark - 在 yarn 下的 spark 作业中连接 Kerberos + 启用 SSL 的 solr

我有启用了Kerberos和SSL的SOLR6集群。当我使用带有CloudSolrClient的测试客户端连接到它时,它工作正常。但是在spark作业驱动程序中运行相同的代码时,我得到以下校验和失败错误。我检查了所有提到的与校验和相关的问题,例如反向dns查找和添加javaunlimitedjar,所有yarn节点中的一切看起来都是正确的。我还可以验证它们是否正确,因为我的普通Java客户端能够从所有服务器进行查询。Causedby:org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException:Errorfro

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中,客户端和集群部署模式有何区别?如何设置我的应用程序要运行的模式?我们有一个包含三台机器的SparkStandalone集群,它们都装有Spark1.6.1:一台主机,也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation,我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl

apache-spark - 错误 : path does not exist in spark submit with hadoop

我们正在使用命令/home/ubuntu/spark/bin/spark-submit--masteryarn--deploy-modecluster--class"SimpleApp"/home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar运行下面的脚本importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql._importorg.apache.spark.sql.types._importorg.apac

scala - 将 spark dataframe 写入现有的 parquet hive 表

想要将spark数据帧写入现有的parquethive表。我可以使用df.write.mode("append").insertIto("myexistinghivetable")来完成,但是如果我检查文件系统,我可以看到spark文件以.c000扩展名登陆.那些文件是什么意思?以及如何将dataframe写入parquethive表。 最佳答案 我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTa

apache-spark - Jupyter Notebook 连接到远程配置单元

我正在尝试从我们公司的远程服务器的Hive获取数据。我使用Anaconda3(Windows64位),我的Hadoop在Ambari上运行。我试过做这些......importfindsparkfindspark.init()frompysparkimportSparkContext,SparkConffrompyspark.sqlimportHiveContext,SparkSessionsparkSession=(SparkSession.builder.appName('example-pyspark-read-from-hive').config("hive.metastore

mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中?

我的MongoDB和Spark在Zeppelin上运行,它们共享相同的HDFS。MongoDB生成一个存储在同一个HDFS中的.wt数据库。我想将MongoDB生成的数据库集合从HDFS加载到SparkDataFrame中。是否可以将数据库直接从HDFS作为DataFrame加载到spark中?还是我需要使用MongoDBSpark连接器? 最佳答案 我不建议阅读或修改内部WiredTigerStorageEngine's*.wt文件。首先,这些内部文件可能会在没有通知的情况下更改(不是面向公众的API),而且对这些文件的任何意外修

apache-spark - 处理大数据集时出现 FetchFailedException 或 MetadataFetchFailedException

当我使用1GB数据集运行解析代码时,它完成时没有任何错误。但是,当我一次尝试25GB的数据时,出现以下错误。我试图了解如何避免以下失败。很高兴听到任何建议或想法。不同的错误,org.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0org.apache.spark.shuffle.FetchFailedException:Failedtoconnecttoip-xxxxxxxxorg.apache.spark.shuffle.FetchFailedException:E

apache-spark - 如何知道我的数据是倾斜的?

将我的数据(假设是表)传输到HDFS后,我不知道我的数据是如何复制的(哪一部分转到哪个机器(节点))。因此,有人说运行SparkSQL查询可以提示我的数据存在偏差。但是我怎么知道我的数据是倾斜的,所以我可以提示spark? 最佳答案 这实际上取决于您的数据质量以及您希望如何使用这些数据。此外,取决于您的Spark如何实现算法。基本上,您可以使用SQL使某些查询选择其中一列作为键,例如user_name。id等等,看有没有大的差异,组成一个组。Forexampleifhavesuchcaseselectcount(distinct(u