sparkcontext_草庐IT

hadoop - sparkSession/sparkContext 获取不到hadoop配置

我在本地机器上运行spark2、hive、hadoop，我想使用sparksql从hive表中读取数据。当我在默认hdfs://localhost:9000下运行hadoop时一切正常，但如果我在core-site.xml中更改为不同的端口:fs.defaultFShdfs://localhost:9099在spark-shell中运行一个简单的sqlspark.sql("select*fromarchive.tcsv3limit100").show();会给我错误:ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(mes

hadoop - 你能给我任何线索为什么是 'Cannot call methods on a stopped SparkContext' 吗？

当我将“vallines=sc.textFile("hdfs:///input")”放入yarn-client时，出现“无法在已停止的SparkContext上调用方法”错误。我整天找了两天，但我不知道原因在哪里。“hdfs:///input”是正确的，因为当我在独立模式下执行它时，我工作得很好。你能告诉我一些想法吗？我正在使用spark1.5.2、hadoop2.7.2。tartingorg.apache.spark.deploy.master.Master,loggingto/opt/spark-1.5.2-bin-hadoop2.6/sbin/../logs/spark-root

SparkContext amp INFO spark 19 hadoop apache-spark

python - Spark : Broadcast variables: It appears that you are attempting to reference SparkContext from a broadcast variable, Action ，或转换

ClassProdsTransformer:def__init__(self):self.products_lookup_hmap={}self.broadcast_products_lookup_map=Nonedefcreate_broadcast_variables(self):self.broadcast_products_lookup_map=sc.broadcast(self.products_lookup_hmap)defcreate_lookup_maps(self)://ThecodeherebuildsthehashmapthatmapsProd_IDtoanoth

SparkContext attempting broadcast broadcast_products_lookup_map code python apache-spark pyspark

python - 属性错误 : 'SparkContext' object has no attribute 'createDataFrame' using Spark 1. 6

以前关于此错误的问题的答案是您需要做的就是更新您的Spark版本。我刚刚删除了早期版本的Spark，并安装了为Hadoop2.6.0构建的Spark1.6.3。我试过这个:s_df=sc.createDataFrame(pandas_df)出现这个错误:---------------------------------------------------------------------------AttributeErrorTraceback(mostrecentcalllast)in()1#creatingasparkdataframefromthepandasdataframe

amp 39 export code section python hadoop apache-spark

python - 如何在pyspark脚本中访问SparkContext

下面的SOF问题HowtorunscriptinPysparkanddropintoIPythonshellwhendone?说明如何启动pyspark脚本:%run-dmyscript.py但是我们如何访问existinspark上下文呢？仅仅创建一个新的是行不通的:---->sc=SparkContext("local",1)ValueError:CannotrunmultipleSparkContextsatonce;existingSparkContext(app=PySparkShell,master=local)createdbyat/Library/Python/2.7/

何在 SparkContext code section python apache-spark pyspark

python - 如何在交互式 PySpark session 中更改 SparkContext 属性

如何在pyspark交互式shell中更改spark.driver.maxResultSize？我使用了以下代码frompysparkimportSparkConf,SparkContextconf=(SparkConf().set("spark.driver.maxResultSize","10g"))sc.stop()sc=SparkContext(conf)但它给了我错误AttributeError:'SparkConf'objecthasnoattribute'_get_object_id' 最佳答案在Spark2.3.1

何在 SparkContext strong code spark python apache-spark pyspark

redis - sparkContext 广播 JedisPool 不工作

我在我的spark流应用程序中使用sparkContext.broadcast来共享redis连接池(JedisPool)。代码如下:lazyvalredisPool={valpool=Redis.createRedisPool(redisHost,redisPort)ssc.sparkContext.broadcast(pool)}Redis.createRedisPool是:objectRedis{defcreateRedisPool(host:String,port:Int,maxIdle:Int,maxTotal:Int,timeout:Int):JedisPool={valp

sparkContext JedisPool esotericsoftware FieldSerializer java redis apache-spark broadcast jedis kryo

python - 教程中出现多个 SparkContexts 错误

我正在尝试运行非常基本的Spark+Pythonpyspark教程——参见http://spark.apache.org/docs/0.9.0/quick-start.html当我尝试初始化一个新的SparkContext时，frompysparkimportSparkContextsc=SparkContext("local[4]","test")我收到以下错误:ValueError:CannotrunmultipleSparkContextsatonce我想知道我之前运行示例代码的尝试是否将某些未清除的内容加载到内存中。有没有办法列出已经在内存中的当前SparkContexts和/

SparkContexts python SparkContext section code apache-spark

java - SparkContext、JavaSparkContext、SQLContext和SparkSession的区别？

SparkContext,JavaSparkContext,SQLContext和SparkSession有什么区别？是否有任何方法可以使用SparkSession转换或创建上下文？我可以使用一个条目SparkSession完全替换所有上下文吗？SQLContext、SparkContext、JavaSparkContext中的所有函数是否也在SparkSession中？parallelize等一些函数在SparkContext和JavaSparkContext中具有不同的行为。它们在SparkSession中的表现如何？如何使用SparkSession创建以下内容？RDDJavaRD

JavaSparkContext SparkContext code SparkSession blockquote java scala apache-spark rdd apache-spark-dataset