spark-submit_草庐IT

apache-spark - spark 中的 Hdfs 文件访问

我正在开发一个应用程序，我从hadoop读取一个文件，处理并将数据存储回hadoop。我很困惑什么应该是正确的hdfs文件路径格式。从sparkshell读取hdfs文件时，如valfile=sc.textFile("hdfs:///datastore/events.txt")它工作正常，我能够阅读它。但是当我将jar加到包含相同代码集的yarn时，它给出了错误提示org.apache.hadoop.HadoopIllegalArgumentException:Uriwithoutauthority:hdfs:/datastore/events.txt当我将名称节点ip添加为hdfs:

scala - 写入 HDFS - hive 时如何控制 Spark 流中的行数和/或输出文件大小？

使用SparkStreaming读取和处理来自Kafka的消息并写入HDFS-Hive。由于我希望避免创建许多垃圾文件系统的小文件，我想知道是否有办法确保最小文件大小和/或强制文件中输出行数最少的能力，除了超时。谢谢。最佳答案据我所知，无法控制输出文件中的行数。但是您可以控制输出文件的数量。控制它并考虑您的数据集大小可能会帮助您满足您的需求，因为您可以计算输出中每个文件的大小。您可以使用coalesce和repartition命令执行此操作:df.coalesce(2).write(...)df.repartition(2).w

scala Spark code section repartition apache-spark hadoop apache-kafka spark-streaming

apache-spark - 在 yarn 下的 spark 作业中连接 Kerberos + 启用 SSL 的 solr

我有启用了Kerberos和SSL的SOLR6集群。当我使用带有CloudSolrClient的测试客户端连接到它时，它工作正常。但是在spark作业驱动程序中运行相同的代码时，我得到以下校验和失败错误。我检查了所有提到的与校验和相关的问题，例如反向dns查找和添加javaunlimitedjar，所有yarn节点中的一切看起来都是正确的。我还可以验证它们是否正确，因为我的普通Java客户端能够从所有服务器进行查询。Causedby:org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException:Errorfro

spark apache-spark DEBUG lt 34 hadoop ssl hadoop-yarn kerberos

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中，客户端和集群部署模式有何区别？如何设置我的应用程序要运行的模式？我们有一个包含三台机器的SparkStandalone集群，它们都装有Spark1.6.1:一台主机，也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation，我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl

apache-spark Differences code Spark section apache-spark-standalone

apache-spark - 错误 : path does not exist in spark submit with hadoop

我们正在使用命令/home/ubuntu/spark/bin/spark-submit--masteryarn--deploy-modecluster--class"SimpleApp"/home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar运行下面的脚本importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql._importorg.apache.spark.sql.types._importorg.apac

spark apache-spark StructField 34 true hadoop cluster-computing hadoop-yarn spark-submit

scala - 将 spark dataframe 写入现有的 parquet hive 表

想要将spark数据帧写入现有的parquethive表。我可以使用df.write.mode("append").insertIto("myexistinghivetable")来完成，但是如果我检查文件系统，我可以看到spark文件以.c000扩展名登陆.那些文件是什么意思？以及如何将dataframe写入parquethive表。最佳答案我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTa

dataframe parquet section spark scala apache-spark hadoop apache-spark-sql hiveql

apache-spark - Jupyter Notebook 连接到远程配置单元

我正在尝试从我们公司的远程服务器的Hive获取数据。我使用Anaconda3(Windows64位)，我的Hadoop在Ambari上运行。我试过做这些......importfindsparkfindspark.init()frompysparkimportSparkContext,SparkConffrompyspark.sqlimportHiveContext,SparkSessionsparkSession=(SparkSession.builder.appName('example-pyspark-read-from-hive').config("hive.metastore

配置单 apache-spark apache spark java hadoop hive pyspark anaconda

mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中？

我的MongoDB和Spark在Zeppelin上运行，它们共享相同的HDFS。MongoDB生成一个存储在同一个HDFS中的.wt数据库。我想将MongoDB生成的数据库集合从HDFS加载到SparkDataFrame中。是否可以将数据库直接从HDFS作为DataFrame加载到spark中？还是我需要使用MongoDBSpark连接器？最佳答案我不建议阅读或修改内部WiredTigerStorageEngine's*.wt文件。首先，这些内部文件可能会在没有通知的情况下更改(不是面向公众的API)，而且对这些文件的任何意外修

DataFrame mongodb section noreferrer apache-spark hadoop hdfs

apache-spark - 处理大数据集时出现 FetchFailedException 或 MetadataFetchFailedException

当我使用1GB数据集运行解析代码时，它完成时没有任何错误。但是，当我一次尝试25GB的数据时，出现以下错误。我试图了解如何避免以下失败。很高兴听到任何建议或想法。不同的错误，org.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0org.apache.spark.shuffle.FetchFailedException:Failedtoconnecttoip-xxxxxxxxorg.apache.spark.shuffle.FetchFailedException:E

时出大数 spark apache scala apache-spark hadoop-yarn

apache-spark - 如何知道我的数据是倾斜的？

将我的数据(假设是表)传输到HDFS后，我不知道我的数据是如何复制的(哪一部分转到哪个机器(节点))。因此，有人说运行SparkSQL查询可以提示我的数据存在偏差。但是我怎么知道我的数据是倾斜的，所以我可以提示spark？最佳答案这实际上取决于您的数据质量以及您希望如何使用这些数据。此外，取决于您的Spark如何实现算法。基本上，您可以使用SQL使某些查询选择其中一列作为键，例如user_name。id等等，看有没有大的差异，组成一个组。Forexampleifhavesuchcaseselectcount(distinct(u

apache-spark apache section spark handling-data-skew-adaptively-in-hadoop apache-spark-sql hdfs