spark-assembly

mongodb - Spark - 如何在 map() 中创建新的 RDD？ (执行者的 SparkContext 为空)

我有以下应用程序，它通过MongoDBSpark连接器使用到MongoDB的连接。我的代码崩溃是因为执行程序的SparkContext为空。基本上我从MongoDB读取数据，处理这些数据，这会导致需要发送到MongoDB的额外查询。最后一步是保存这些额外查询的数据。我使用的代码:JavaMongoRDDrdd=MongoSpark.load(sc);JavaMongoRDDaggregatedRdd=rdd.withPipeline(...);JavaPairRDDpairRdd=aggregatedRdd.mapToPair((document)->newTuple2(documen

中创何在 Date gt Tuple mongodb apache-spark mongodb-query

Spark系列之Spark的RDD详解

title:Spark系列第五章Spark的RDD详解5.1RDD概述RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢？Hadoop的MapReduce是一种基于数据集的工作模式，面向数据，这种工作模式一般是从存储上加载数据集，然后操作数据集，最后写入物理存储设备。数据更多面临的是一次性处理。MapReduce的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据反复查询反复操作。MapReduce这种模式不太合适，即使多MapReduce串行处理，性能和时

Spark 详解 xff0c xff xff0 大数据

mongodb - 无法在身份验证模式下使用 Mongo 连接 Mongo-Spark Connector

我正在尝试通过Mongo-Spark连接器在远程计算机上使用MongoDB实例来运行spark-submit作业。当我启动mongod服务时，没有--auth标志，并像这样运行spark-submit命令:./bin/spark-submit--masterspark://10.0.3.155:7077\--conf"spark.mongodb.input.uri=mongodb://10.0.3.156/test.coll?readPreference=primaryPreferred"\--conf"spark.mongodb.output.uri=mongodb://10.0.3

Mongo Mongo-Spark mongodb spark MongoConnector authentication apache-spark apache-spark-sql spark-submit

mongodb - 如何使用 mongodb-spark 连接器将数据插入 mongodb 中的现有集合

我正在使用mongo-spark连接器连接spark和MongoDB。我无法将数据插入MongoDB，因为如果“表”(集合)存在，spark默认保存模式是错误的然后我试试这个。MongoSpark.write(centenarians).option("collection","hundredClub")*.option("mode","append")*.save();但这不是效果。我怎么解决这个问题请帮助我谢谢!这是错误信息:Exceptioninthread"main"java.lang.UnsupportedOperationException:MongoCollectiona

mongodb mongodb-spark section 34 spark apache-spark collections connector

Spark on YARN 部署搭建详细图文教程

目录一、引言二、SparkOnYarn本质2.1SparkOnYarn的本质?2.2SparkOnYarn需要啥?三、配置sparkonyarn环境3.1 spark-env.sh 3.2 连接到YARN中3.2.1bin/pyspark3.2.2 bin/spark-shell3.2.3bin/spark-submit(PI)四、部署模式DeployMode 4.1 Cluster模式4.2 Client模式4.3 两种模式的区别 4.4测试 4.4.1client 模式测试 4.4.2cluster模式测试 4.5 两种模式总结五、两种模式详细流程 5.1 Client模式 5.2 C

搭建部署 xff xff0c xff0 spark java javascript

Spark基础

一、spark基础1、为什么使用SparkⅠ、MapReduce编程模型的局限性(1)繁杂只有Map和Reduce两个操作，复杂的逻辑需要大量的样板代码(2)处理效率低Map中间结果写磁盘，Reduce写HDFS，多个Map通过HDFS交换数据任务调度与启动开销大(3)不适合迭代处理、交互式处理和流式处理Ⅱ、Spark是类HadoopMapReduce的通用并行框架(1)Job中间输出结果可以保存在内存，不再需要读写HDFS(2)比MapReduce平均快10倍以上Ⅲ、Spark VSHadoopHadoopSpark类型分布式基础平台，包含计算、存储、调度分布式计算工具场景大规模数据集上的批

基础 Spark xff style strong 大数据分布式

如何为多个用户设置共享的SPARK安装（默认情况下，DB.LCK阻止其他用户打开）？

我们希望学生能够开始spark-shell或者pyspark作为他们自己的用户。但是，德比数据库锁定了该过程从另一个用户开始：-rw-r--r--1myuserstaff38Jun2810:40db.lck这些错误出现了：ERRORPoolWatchThread:Errorintryingtoobtainaconnection.Retryingin7000msjava.sql.SQLException:Aread-onlyuserorauserinaread-onlydatabaseisnotpermittedtodisableread-onlymodeonaconnection.atorg.

用户何为 gt lt property

mongodb - 如何使用来自 MongoDB 的过滤记录构建 Spark 数据框？

我的应用程序是使用MongoDB作为平台构建的。DB中的一个集合具有海量数据，并且选择了apachespark通过计算来检索和生成分析数据。我配置了SparkConnectorforMongoDB与MongoDB通信。我需要使用pyspark查询MongoDB集合并构建一个由mongodb查询结果集组成的数据框。请给我一个合适的解决方案。最佳答案您可以像这样将数据直接加载到数据框中:#Createthedataframedf=sqlContext.read.format("com.mongodb.spark.sql.Defaul

mongodb section 34 apache-spark mongodb-query pyspark

企业spark案例 —— 出租车轨迹分析(Python)

头歌的大数据作业，答案没找着，遂自己整了一份第1关：SparkSql数据清洗任务描述本关任务：将出租车轨迹数据规整化，清洗掉多余的字符串。相关知识为了完成本关任务，你需要掌握：1.如何使用SparkSQL读取CSV文件，2.如何使用正则表达式清洗掉多余字符串。编程要求在右侧编辑器补充代码，将出租车轨迹数据规整化,清洗掉多余的字符串，并使用DataFrame.show()打印输出。#-*-coding:UTF-8-*-frompyspark.sqlimportSparkSessionif__name__=='__main__':spark=SparkSession.builder.master(

mdash 出租车 span class token spark python 大数据

mongodb - MongoDB 和 Spark 中的连接过多

我的SparkStreaming应用程序将数据存储在MongoDB中。不幸的是，每个Sparkworker在将其存储在MongoDB中时打开了太多连接以下是我的代码Spark-MongoDB代码:publicstaticvoidmain(String[]args){intnumThreads=Integer.parseInt(args[3]);StringmongodbOutputURL=args[4];StringmasterURL=args[5];Logger.getLogger("org").setLevel(Level.OFF);Logger.getLogger("akka")

mongodb String 34 section apache-spark apache-kafka spark-streaming

116 117 118119120 121 122