sparking_草庐IT

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中，客户端和集群部署模式有何区别？如何设置我的应用程序要运行的模式？我们有一个包含三台机器的SparkStandalone集群，它们都装有Spark1.6.1:一台主机，也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation，我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl

apache-spark - 错误 : path does not exist in spark submit with hadoop

我们正在使用命令/home/ubuntu/spark/bin/spark-submit--masteryarn--deploy-modecluster--class"SimpleApp"/home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar运行下面的脚本importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql._importorg.apache.spark.sql.types._importorg.apac

spark apache-spark StructField 34 true hadoop cluster-computing hadoop-yarn spark-submit

scala - 将 spark dataframe 写入现有的 parquet hive 表

想要将spark数据帧写入现有的parquethive表。我可以使用df.write.mode("append").insertIto("myexistinghivetable")来完成，但是如果我检查文件系统，我可以看到spark文件以.c000扩展名登陆.那些文件是什么意思？以及如何将dataframe写入parquethive表。最佳答案我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTa

dataframe parquet section spark scala apache-spark hadoop apache-spark-sql hiveql

apache-spark - Jupyter Notebook 连接到远程配置单元

我正在尝试从我们公司的远程服务器的Hive获取数据。我使用Anaconda3(Windows64位)，我的Hadoop在Ambari上运行。我试过做这些......importfindsparkfindspark.init()frompysparkimportSparkContext,SparkConffrompyspark.sqlimportHiveContext,SparkSessionsparkSession=(SparkSession.builder.appName('example-pyspark-read-from-hive').config("hive.metastore

配置单 apache-spark apache spark java hadoop hive pyspark anaconda

mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中？

我的MongoDB和Spark在Zeppelin上运行，它们共享相同的HDFS。MongoDB生成一个存储在同一个HDFS中的.wt数据库。我想将MongoDB生成的数据库集合从HDFS加载到SparkDataFrame中。是否可以将数据库直接从HDFS作为DataFrame加载到spark中？还是我需要使用MongoDBSpark连接器？最佳答案我不建议阅读或修改内部WiredTigerStorageEngine's*.wt文件。首先，这些内部文件可能会在没有通知的情况下更改(不是面向公众的API)，而且对这些文件的任何意外修

DataFrame mongodb section noreferrer apache-spark hadoop hdfs

apache-spark - 处理大数据集时出现 FetchFailedException 或 MetadataFetchFailedException

当我使用1GB数据集运行解析代码时，它完成时没有任何错误。但是，当我一次尝试25GB的数据时，出现以下错误。我试图了解如何避免以下失败。很高兴听到任何建议或想法。不同的错误，org.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0org.apache.spark.shuffle.FetchFailedException:Failedtoconnecttoip-xxxxxxxxorg.apache.spark.shuffle.FetchFailedException:E

时出大数 spark apache scala apache-spark hadoop-yarn

apache-spark - 如何知道我的数据是倾斜的？

将我的数据(假设是表)传输到HDFS后，我不知道我的数据是如何复制的(哪一部分转到哪个机器(节点))。因此，有人说运行SparkSQL查询可以提示我的数据存在偏差。但是我怎么知道我的数据是倾斜的，所以我可以提示spark？最佳答案这实际上取决于您的数据质量以及您希望如何使用这些数据。此外，取决于您的Spark如何实现算法。基本上，您可以使用SQL使某些查询选择其中一列作为键，例如user_name。id等等，看有没有大的差异，组成一个组。Forexampleifhavesuchcaseselectcount(distinct(u

apache-spark apache section spark handling-data-skew-adaptively-in-hadoop apache-spark-sql hdfs

apache-spark - 如何在 Spark 中定义传入文件的文件命名约定

我在hdfs中实时接收文件，它们具有相同的命名约定。id_name_..._timestamp我能否以某种方式在spark(scala)上定义此命名约定，以便稍后我可以将这些与ID进行比较？谢谢最佳答案你使用这样的东西:注册udfspark.udf().register("get_only_file_name",(StringfullPath)->{intlastIndex=fullPath.lastIndexOf("/");returnfullPath.substring(lastIndex,fullPath.length-1

传入何在 section name fullPath apache-spark hadoop naming convention

apache-spark - 无法通过 YARN 访问 Spark UI

我正在构建一个docker镜像，以针对使用YARN的生产Hadoop集群在本地运行zeppelin或spark-shell。编辑:环境是macOS我可以很好地执行作业或spark-shell，但是当我尝试访问YARN上的TrackingURL时，作业正在运行，它会挂起YARN-UI整整10分钟。YARN仍在工作，如果我通过ssh连接，我可以执行yarn命令。如果我不访问SparkUI(直接或通过YARN)，什么也不会发生。作业已执行且YARN-UI未挂起。更多信息:本地，在Docker上:Spark2.1.2、Hadoop2.6.0-cdh5.4.3生产环境:Spark2.1.0、Ha

apache-spark apache docker section spark hadoop hadoop-yarn spark-ui

apache-spark - 写入数据后使用 .saveAsTable 写入 HDFS 时出现 TImeout 错误

我在EMR上运行Spark2.3，并尝试使用Scala将数据写入HDFS，如下所示:dataframe.write.partitionBy("column1").bucketBy(1,"column2").sortBy("column2").mode("overwrite").format("parquet").option("path","hdfs:///destination/").saveAsTable("result")写入数据并完成任务后，我收到超时错误。错误发生后，我可以在HDFS中看到已完全处理的数据。为什么会出现这个错误？有什么意义吗？看起来主节点正在尝试与另一个IP(

时出 apache-spark apache hadoop other_ip hdfs