草庐IT

sparkSession

全部标签

java - 从 SparkSession 获取 JavaSparkContext

我正在使用SparkSession来运行我的spark应用程序,因为我使用了很多spark-sql功能。我想使用JavaSparkContext从列表中创建RDD。但是通过Session我只能得到一个普通SparkContext。有没有办法朝这个方向转换上下文? 最佳答案 确定SparkContext后,您可以使用:SparkContextsc=...JavaSparkContextjsc=JavaSparkContext.fromSparkContext(sc);这将为您返回JavaSparkContext的新实例,但只要您维护S

python - SparkSession 初始化错误 - 无法使用 spark.read

我尝试创建一个独立的PySpark程序来读取csv并将其存储在配置单元表中。我在配置Sparksession、session和上下文对象时遇到问题。这是我的代码:frompysparkimportSparkConf,SparkContextfrompyspark.sqlimportSQLContext,SparkSessionfrompyspark.sql.typesimport*conf=SparkConf().setAppName("test_import")sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)spark=Spark

python - 如何从 SparkSession 实例访问 SparkContext?

我正在PySpark中导入SparkSession:frompyspark.sqlimportSparkSession然后我创建SparkSession:spark=SparkSession.builder.appName("test").getOrCreate()并尝试访问SparkContext:spark.SparkContext.broadcast(...)但是,我得到一个错误,提示SparkContext不存在。如何访问它以设置broadcast变量? 最佳答案 你几乎没看错,开头是小写的s:>>>spark.sparkC

大数据Spark SparkSession的3种创建方式 Scala语言实现

1、什么是SparkSessionSparkSession是ApacheSpark2.0版本引入的一个编程接口,用于与Spark进行交互。它是Spark应用程序的入口点,提供了一种方便的方式来创建DataFrame、DataSet和SQLContext等数据结构,并且可以配置各种Spark应用程序的选项。SparkSession还管理了Spark应用程序的运行环境,包括Spark集群的连接,以及将数据加载到内存中进行处理等任务。2、创建SparkSession的几种方法在Scala中,创建SparkSession有以下几种方法:先引入SparkSession类importorg.apache.

java - PySpark:无法创建 SparkSession。(Java 网关错误)

我已经在Windows上安装了PySpark,直到昨天才出现问题。我正在使用windows10、PySpark版本2.3.3(预构建版本)、java版本“1.8.0_201”。昨天,当我尝试创建一个sparksession时,我遇到了以下错误。ExceptionTraceback(mostrecentcalllast)in---->1spark=SparkSession.builder.appName("Hello").master("local").getOrCreate()C:\spark-2.3.3-bin-hadoop2.7\python\pyspark\sql\session

hadoop - sparkSession/sparkContext 获取不到hadoop配置

我在本地机器上运行spark2、hive、hadoop,我想使用sparksql从hive表中读取数据。当我在默认hdfs://localhost:9000下运行hadoop时一切正常,但如果我在core-site.xml中更改为不同的端口:fs.defaultFShdfs://localhost:9099在spark-shell中运行一个简单的sqlspark.sql("select*fromarchive.tcsv3limit100").show();会给我错误:ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(mes

java - 如何创建具有 Hive 支持的 SparkSession(失败并返回 "Hive classes are not found")?

我在尝试运行以下代码时遇到错误:importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SparkSession;publicclassApp{publicstaticvoidmain(String[]args)throwsException{SparkSession.builder().enableHiveSupport().getOrCreate();}}输出:Exceptioninthread"main"java.lang.IllegalArgumen

python - 我怎样才能拆除一个 SparkSession 并在一个应用程序中创建一个新的?

我有一个pyspark程序,有多个独立的模块,每个模块都可以独立处理数据,以满足我的各种需求。但它们也可以链接在一起以在管道中处理数据。这些模块中的每一个都构建一个SparkSession并自行完美执行。但是,当我尝试在同一个python进程中连续运行它们时,我遇到了问题。在管道中的第二个模块执行的那一刻,spark提示我正在尝试使用的SparkContext已停止:py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo149.parquet.:java.lang.IllegalStateException:Cannotcall

python - pyspark 错误 : AttributeError: 'SparkSession' object has no attribute 'parallelize'

我在Jupyternotebook上使用pyspark。以下是Spark的设置方式:importfindsparkfindspark.init(spark_home='/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive',python_path='python2.7')importpysparkfrompyspark.sqlimport*sc=pyspark.sql.SparkSession.builder.master("yarn-client").config("spark.executor.memo

python - 如何使用 pyspark 在 Spark 2.0 中构建 sparkSession?

我刚刚获得了spark2.0的访问权限;到目前为止,我一直在使用spark1.6.1。有人可以帮我使用pyspark(python)设置sparkSession吗?我知道在线提供的scala示例是相似的(here),但我希望能直接使用python语言进行演练。我的具体情况:我在zeppelinspark笔记本中从S3加载avro文件。然后构建df并从中运行各种pyspark和sql查询。我所有的旧查询都使用sqlContext。我知道这是不好的做法,但我用开始我的笔记本sqlContext=SparkSession.builder.enableHiveSupport().getOrCr