草庐IT

PySpark3

全部标签

memory - 如何从 iPython 接口(interface)中找出 pyspark 的内存量?

我用命令启动IPYTHON=1MASTER=local[4]pysparkSpark用向我打招呼Welcometospark,version1.2.1SparkContextavailabelassc.但是使用sc,我无法找到它所拥有的内存。如何找出这一点,如果可能的话,如何将其设置为另一个值。 最佳答案 您可以像这样查询SparkContext的配置:sc._conf.get('spark.executor.memory')或者,如果您对驱动程序的内存感兴趣:sc._conf.get('spark.driver.memory')完

memory - 如何从 iPython 接口(interface)中找出 pyspark 的内存量?

我用命令启动IPYTHON=1MASTER=local[4]pysparkSpark用向我打招呼Welcometospark,version1.2.1SparkContextavailabelassc.但是使用sc,我无法找到它所拥有的内存。如何找出这一点,如果可能的话,如何将其设置为另一个值。 最佳答案 您可以像这样查询SparkContext的配置:sc._conf.get('spark.executor.memory')或者,如果您对驱动程序的内存感兴趣:sc._conf.get('spark.driver.memory')完

mysql - pyspark mysql jdbc load 调用o23.load时出错没有合适的驱动

我使用docker镜像sequenceiq/spark在我的Mac上学习这些sparkexamples,在学习过程中,我根据thisanswer将该图片里面的spark升级到1.6.1,并且在我启动SimpleDataOperations示例时发生了错误,这是发生了什么:当我运行df=sqlContext.read.format("jdbc").option("url",url).option("dbtable","people").load()它报错,pyspark控制台的全栈如下:Python2.6.6(r266:84292,Jul232015,15:22:56)[GCC4.4.7

mysql - pyspark mysql jdbc load 调用o23.load时出错没有合适的驱动

我使用docker镜像sequenceiq/spark在我的Mac上学习这些sparkexamples,在学习过程中,我根据thisanswer将该图片里面的spark升级到1.6.1,并且在我启动SimpleDataOperations示例时发生了错误,这是发生了什么:当我运行df=sqlContext.read.format("jdbc").option("url",url).option("dbtable","people").load()它报错,pyspark控制台的全栈如下:Python2.6.6(r266:84292,Jul232015,15:22:56)[GCC4.4.7

python - Spark 可以从 pyspark 访问 Hive 表,但不能从 spark-submit

所以,当从pyspark运行时,我会输入(不指定任何上下文):df_openings_latest=sqlContext.sql('select*fromexperian_int_openings_latest_orc')..它工作正常。但是,当我从spark-submit运行我的脚本时,就像spark-submitscript.py我将以下内容放入frompyspark.sqlimportSQLContextfrompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName('inc_dd_openings')sc=S

python - Spark 可以从 pyspark 访问 Hive 表,但不能从 spark-submit

所以,当从pyspark运行时,我会输入(不指定任何上下文):df_openings_latest=sqlContext.sql('select*fromexperian_int_openings_latest_orc')..它工作正常。但是,当我从spark-submit运行我的脚本时,就像spark-submitscript.py我将以下内容放入frompyspark.sqlimportSQLContextfrompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName('inc_dd_openings')sc=S

python - Pyspark --py-files 不起作用

我按照文档的建议使用它http://spark.apache.org/docs/1.1.1/submitting-applications.htmlspsark版本1.1.0./spark/bin/spark-submit--py-files/home/hadoop/loganalysis/parser-src.zip\/home/hadoop/loganalysis/ship-test.py和代码中的conf:conf=(SparkConf().setMaster("yarn-client").setAppName("LogAnalysis").set("spark.executor

python - Pyspark --py-files 不起作用

我按照文档的建议使用它http://spark.apache.org/docs/1.1.1/submitting-applications.htmlspsark版本1.1.0./spark/bin/spark-submit--py-files/home/hadoop/loganalysis/parser-src.zip\/home/hadoop/loganalysis/ship-test.py和代码中的conf:conf=(SparkConf().setMaster("yarn-client").setAppName("LogAnalysis").set("spark.executor

python - 通过排除使用 isin 过滤 pyspark 数据帧

这个问题在这里已经有了答案:Pysparkdataframeoperator"ISNOTIN"(7个回答)关闭3年前。我正在尝试获取数据框中的所有行,其中列值不在列表中(因此通过排除进行过滤)。举个例子:df=sqlContext.createDataFrame([('1','a'),('2','b'),('3','b'),('4','c'),('5','d')],schema=('id','bar'))我得到数据框:+---+---+|id|bar|+---+---+|1|a||2|b||3|b||4|c||5|d|+---+---+我只想排除bar为('a'或'b')的行。使用SQ

python - 通过排除使用 isin 过滤 pyspark 数据帧

这个问题在这里已经有了答案:Pysparkdataframeoperator"ISNOTIN"(7个回答)关闭3年前。我正在尝试获取数据框中的所有行,其中列值不在列表中(因此通过排除进行过滤)。举个例子:df=sqlContext.createDataFrame([('1','a'),('2','b'),('3','b'),('4','c'),('5','d')],schema=('id','bar'))我得到数据框:+---+---+|id|bar|+---+---+|1|a||2|b||3|b||4|c||5|d|+---+---+我只想排除bar为('a'或'b')的行。使用SQ