草庐IT

sparking

全部标签

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中,客户端和集群部署模式有何区别?如何设置我的应用程序要运行的模式?我们有一个包含三台机器的SparkStandalone集群,它们都装有Spark1.6.1:一台主机,也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation,我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl

apache-spark - 错误 : path does not exist in spark submit with hadoop

我们正在使用命令/home/ubuntu/spark/bin/spark-submit--masteryarn--deploy-modecluster--class"SimpleApp"/home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar运行下面的脚本importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql._importorg.apache.spark.sql.types._importorg.apac

scala - 将 spark dataframe 写入现有的 parquet hive 表

想要将spark数据帧写入现有的parquethive表。我可以使用df.write.mode("append").insertIto("myexistinghivetable")来完成,但是如果我检查文件系统,我可以看到spark文件以.c000扩展名登陆.那些文件是什么意思?以及如何将dataframe写入parquethive表。 最佳答案 我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTa

apache-spark - Jupyter Notebook 连接到远程配置单元

我正在尝试从我们公司的远程服务器的Hive获取数据。我使用Anaconda3(Windows64位),我的Hadoop在Ambari上运行。我试过做这些......importfindsparkfindspark.init()frompysparkimportSparkContext,SparkConffrompyspark.sqlimportHiveContext,SparkSessionsparkSession=(SparkSession.builder.appName('example-pyspark-read-from-hive').config("hive.metastore

mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中?

我的MongoDB和Spark在Zeppelin上运行,它们共享相同的HDFS。MongoDB生成一个存储在同一个HDFS中的.wt数据库。我想将MongoDB生成的数据库集合从HDFS加载到SparkDataFrame中。是否可以将数据库直接从HDFS作为DataFrame加载到spark中?还是我需要使用MongoDBSpark连接器? 最佳答案 我不建议阅读或修改内部WiredTigerStorageEngine's*.wt文件。首先,这些内部文件可能会在没有通知的情况下更改(不是面向公众的API),而且对这些文件的任何意外修

apache-spark - 处理大数据集时出现 FetchFailedException 或 MetadataFetchFailedException

当我使用1GB数据集运行解析代码时,它完成时没有任何错误。但是,当我一次尝试25GB的数据时,出现以下错误。我试图了解如何避免以下失败。很高兴听到任何建议或想法。不同的错误,org.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0org.apache.spark.shuffle.FetchFailedException:Failedtoconnecttoip-xxxxxxxxorg.apache.spark.shuffle.FetchFailedException:E

apache-spark - 如何知道我的数据是倾斜的?

将我的数据(假设是表)传输到HDFS后,我不知道我的数据是如何复制的(哪一部分转到哪个机器(节点))。因此,有人说运行SparkSQL查询可以提示我的数据存在偏差。但是我怎么知道我的数据是倾斜的,所以我可以提示spark? 最佳答案 这实际上取决于您的数据质量以及您希望如何使用这些数据。此外,取决于您的Spark如何实现算法。基本上,您可以使用SQL使某些查询选择其中一列作为键,例如user_name。id等等,看有没有大的差异,组成一个组。Forexampleifhavesuchcaseselectcount(distinct(u

apache-spark - 如何在 Spark 中定义传入文件的文件命名约定

我在hdfs中实时接收文件,它们具有相同的命名约定。id_name_..._timestamp我能否以某种方式在spark(scala)上定义此命名约定,以便稍后我可以将这些与ID进行比较?谢谢 最佳答案 你使用这样的东西:注册udfspark.udf().register("get_only_file_name",(StringfullPath)->{intlastIndex=fullPath.lastIndexOf("/");returnfullPath.substring(lastIndex,fullPath.length-1

apache-spark - 无法通过 YARN 访问 Spark UI

我正在构建一个docker镜像,以针对使用YARN的生产Hadoop集群在本地运行zeppelin或spark-shell。编辑:环境是macOS我可以很好地执行作业或spark-shell,但是当我尝试访问YARN上的TrackingURL时,作业正在运行,它会挂起YARN-UI整整10分钟。YARN仍在工作,如果我通过ssh连接,我可以执行yarn命令。如果我不访问SparkUI(直接或通过YARN),什么也不会发生。作业已执行且YARN-UI未挂起。更多信息:本地,在Docker上:Spark2.1.2、Hadoop2.6.0-cdh5.4.3生产环境:Spark2.1.0、Ha

apache-spark - 写入数据后使用 .saveAsTable 写入 HDFS 时出现 TImeout 错误

我在EMR上运行Spark2.3,并尝试使用Scala将数据写入HDFS,如下所示:dataframe.write.partitionBy("column1").bucketBy(1,"column2").sortBy("column2").mode("overwrite").format("parquet").option("path","hdfs:///destination/").saveAsTable("result")写入数据并完成任务后,我收到超时错误。错误发生后,我可以在HDFS中看到已完全处理的数据。为什么会出现这个错误?有什么意义吗?看起来主节点正在尝试与另一个IP(