pyspark-dataframes

python - Pyspark java.lang.OutOfMemoryError : Requested array size exceeds VM limit 错误

我正在运行Pyspark作业:spark-submit--masteryarn-client--driver-memory150G--num-executors8--executor-cores4--executor-memory150Gbenchmark_script_1.pyhdfs:///tmp/data/sample150k128hdfs:///tmp/output/sample150k|tee~/output/sample150k.log工作本身非常标准。它只是抓取一些文件并对它们进行计数。:print(str(datetime.now())+"-Ingestingfiles

hadoop - Apache Spark : Apply existing mllib model on Incoming DStreams/DataFrames

使用ApacheSpark的mllib，我有一个存储在HDFS中的逻辑回归模型。此逻辑回归模型是根据来自某些传感器的历史数据进行训练的。我有另一个spark程序，它使用来自这些传感器的流数据。我希望能够使用预先存在的训练模型对传入的数据流进行预测。注意:我不希望我的模型被这些数据更新。要加载训练模型，我必须在我的代码中使用以下行:vallogisticModel=LogisticRegressionModel.load(sc,)sc:Spark上下文。但是，这个应用程序是一个流应用程序，因此已经有一个“StreamingContext”设置。现在，根据我的阅读，在同一个程序中有两个上下

DataFrames Incoming code StreamingContext SparkContext hadoop apache-spark machine-learning apache-spark-mllib

apache-spark - pyspark 的 toDF() 与 createDataFrame() 的奇怪行为

我是初学者，刚开始使用spark。我在pySpark(Scala2.11.8)中执行了以下查询dic=[{"a":1},{"b":2},{"c":3}]spark.parallelize(dic).toDF()df.show()然后产生:+----+|a|+----+|1||null||null|+----+而当我执行spark.createDataFrame(dic).show()时它会产生+----+----+----+|a|b|c|+----+----+----+|1|null|null||null|2|null||null|null|3|+----+----+----+基于Un

createDataFrame apache-spark code section spark hadoop pyspark

hadoop - 使用 pyspark 流式传输到 HBase

网上有大量关于使用Scala使用Spark流批量加载到HBase的信息(thesetwo特别有用)和一些关于Java的信息，但似乎缺乏相关信息与PySpark。所以我的问题是:如何使用PySpark将数据批量加载到HBase？大多数示例在任何语言中都只显示每行被更新的一列。如何在每行中插入多列？我目前的代码如下:if__name__=="__main__":context=SparkContext(appName="PythonHBaseBulkLoader")streamingContext=StreamingContext(context,5)stream=streamingCon

流式 pyspark 34 code apache hadoop hbase spark-streaming

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame

我正在使用spark1.5。我想从HDFS中的文件创建一个dataframe。HDFS文件包含json数据，其中包含大量序列输入文件格式的字段。有没有办法在java中优雅地做到这一点？事先不知道json的结构/字段。我能够从序列文件中将输入作为RDD，如下所示:JavaPairRDDinputRDD=jsc.sequenceFile("s3n://key_id:secret_key@file/path",LongWritable.class,BytesWritable.class);JavaRDDevents=inputRDD.map(newFunction,String>(){pub

sequenceFile DataFrame String section BytesWritable hadoop apache-spark hdfs

【pyspark从入门到放弃】DataFrame

环境安装pyspark支持通过pypip、conda下载，或者手动下载。笔者通过pipinstall命令从pypip下载并配置安装了3.5.0版本的Spark。创建实例使用spark的第一步就是拿到一个SparkSession对象。最简单的方法是SparkSession.builder.getOrCreate()即，直接使用默认参数创建实例。也可以做一些配置，比如SparkSession.builder\.appName(app_name)\.enableHiveSupport()\.getOrCreate()DataFrame创建DataFrameDataFrame是类似pandas库中的D

DataFrame 入门 code span class spark

r - 无法从 SparkR 创建的 DataFrame 中检索数据

我有以下简单的SparkR程序，它创建一个SparkRDataFrame并从中检索/收集数据。Sys.setenv(HADOOP_CONF_DIR="/etc/hadoop/conf.cloudera.yarn")Sys.setenv(SPARK_HOME="/home/user/Downloads/spark-1.6.1-bin-hadoop2.6").libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"R","lib"),.libPaths()))library(SparkR)sc我能够成功创建它并查看信息，但是任何与获取数据相关的操作都会

DataFrame SparkR spark apache scala r hadoop apache-spark hive

scala - Spark : what options can be passed with DataFrame. saveAsTable 或 DataFrameWriter.options？

开发人员和API文档均未包含有关可以在DataFrame.saveAsTable或DataFrameWriter.options中传递哪些选项的任何引用，它们会影响Hive的保存table。我希望在这个问题的答案中，我们可以汇总有助于Spark开发人员的信息，他们希望更好地控制Spark保存表的方式，并可能为改进Spark的文档提供基础。最佳答案您在任何地方都看不到options文档的原因是它们是特定于格式的，开发人员可以使用一组新的options继续创建自定义写入格式。但是，对于少数支持的格式，我列出了spark代码本身提到的

options DataFrameWriter apache scala spark hadoop apache-spark hive parquet

【头歌实训】PySpark Streaming 入门

文章目录第1关：SparkStreaming基础与套接字流任务描述相关知识SparkStreaming简介Python与SparkStreamingPythonSparkStreamingAPISparkStreaming初体验（套接字流）编程要求测试说明答案代码第2关：文件流任务描述相关知识文件流概述Python与SparkStreaming文件流SparkStreaming文件流初体验编程要求测试说明答案代码第3关：RDD队列流任务描述相关知识队列流概述Python与SparkStreaming队列流SparkStreaming队列流初体验编程要求测试说明答案代码第1关：SparkStre

Streaming 入门 span class token pyspark 头歌实训

在R DataFrame中，如何搜索以前的交易信息

假设我有一个R数据框。每行代表某人在特定日期进行的交易。有许多专栏拥有有关交易的更多信息，例如他/她花的钱和他/她购买的商品数量。一个人可能有许多交易，因此一个人可能会有几行。假设我想拥有一列，以记录客户在上次交易中花费多少。目前，我正在使用for循环查看整个数据框架，以检查该客户是否具有先前的交易。如果客户有以前的交易，那么我为字段添加价值；如果没有，我只是跳到下一行。它起作用，但我正在处理一个超过170万行的数据框架，以使我的循环对我来说太慢了。您有更好的想法解决问题吗？欣赏！！！看答案假设你有一个data.frame像这样library(dplyr)df%group_by(CustId)

DataFrame 以前 ID ID1 section

10 11 121314 15 16