草庐IT

sparking

全部标签

java - spark-1.5.1 在 java 代码中使用 HiveContext 抛出配置单元 1.2.0 的内存错误

我有一个用于HADOOP2.6的spark-1.5.1在我的本地机器上以独立模式运行。我正在尝试从示例Java应用程序运行配置单元查询,将spark.master指向在我的本地计算机上运行的(spark://impetus-i0248u:7077)sparkmaster。这是一段java代码:SparkConfsparkconf=newSparkConf().set("spark.master","spark://impetus-i0248u:7077").set("spark.app.name","sparkhivesqltest").set("spark.cores.max","2

python - Spark 1.5.2 + Hadoop 2.6.2 spark-submit 和 pyspark 不使用独立的所有节点

我在独立模式下运行spark-submit或pyspark时遇到问题,如下所示:spark/bin/pyspark--masterspark://:这通常会使用所有节点(至少在以前的版本中)在UI中创建一个正在运行的Spark应用程序。出于某种原因,这样做只会在主节点上运行它,尽管UI显示所有节点都连接到主节点。从节点上的日志中没有错误。任何人都知道可能出了什么问题?作为引用,我的spark-env.sh具有以下配置:exportHADOOP_CONF_DIR=/mnt/hadoop/etc/hadoopexportSPARK_PUBLIC_DNS=exportSPARK_MASTER

scala - Spark SBT 程序尝试从本地文件系统而不是 IntelliJ 项目中的 hdfs 读取

我安装了Hadoop(hadoop-2.7.2.tar.gz)和Spark(spark-1.6.0-bin-without-hadoop.tgz)。两者均已正确配置以协同工作。我能够遵循this的scala版本动手教程,以读取存储在hdfs上的文件并应用ALS算法提供建议。但是现在当我尝试在IntelliJIDE中做同样的事情时,我得到了这个错误:Exceptioninthread"main"org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/data/movielens/medium我想

hadoop - 即使以管理员身份运行,在 Windows 上运行 Spark 错误 5(拒绝访问)

我刚开始使用Spark,所以不太确定我的问题出在哪里,并在这里寻找有用的提示。我正在尝试以管理员身份在Windows7计算机上运行Spark(pyspark),但它似乎无法正常工作(我仍然收到WindowsError5)。见下图:我已经下载了文件(版本1.2.0,为Hadoop2.4或更高版本预构建),通过命令行使用tar将其解压缩,并在调用bin\pyspark之前设置IPYTHON=1。当我调用它时,pyspark会运行,但我会根据图像收到以下错误。当我尝试调用某些SparkContext对象时,我得到名称“sc”未定义。我已经安装了python2.7.8,SpyderIDE并且在

hadoop - spark 是否有可能同时读取 HDFS 数据和进行一些计算?

例如,我在Spark平台上运行了以下工作计数应用程序:valtextFile=sc.textFile("hdfs://...")valcounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.saveAsTextFile("hdfs://...")假设有一个worker需要处理1Gb数据,那么这个worker是否有可能在获取所有1Gb数据之前开始做一些计算(比如flatMap)? 最佳答案 一般来说,是的,但是您的

postgresql - 如何将 Postgres(二进制或文本)转储文件导入 Spark 或 HDFS?

我想在Spark中使用Postgres(二进制或文本)转储文件,想知道如何导入它?我知道我们可以使用Sqoop将Postgres导入HDFS,并且我可以从Spark访问HDFS,但是如果我只有转储文件怎么办?我是否必须先将其恢复到Postgres数据库中?我宁愿不要。 最佳答案 使用pg_restore--data-only-tmy_tabledb.dump你应该得到制表符分隔的文本,其中包含一些注释和一些额外的命令,过滤掉你不需要的一切会很简单'不想将该文件写入HDFS。然后就是将该文件作为CSV文件从Spark或MapReduc

java - 从 Eclipse IDE 在 YARN 上提交 Spark 应用程序

当我尝试通过Eclipse在Yarn上提交我的Spark应用程序时,我遇到了一个问题。我尝试提交一个简单的SVM程序,但出现以下错误。我有macbook,如果有人能给我详细的答案,我将不胜感激16/09/1710:04:19ERRORSparkContext:ErrorinitializingSparkContext.java.lang.IllegalStateException:Librarydirectory'.../MyProject/assembly/target/scala-2.11/jars'doesnotexist;makesureSparkisbuilt.atorg.a

r - 如何使用 SparkR 的 as.DataFrame() 将大型 R data.frames 加载到 Spark 中?

我的目标是将大型Rdata.frame加载到Spark中。data.frame的大小是500万。各种类型的行和7列。一旦加载到R中,这个data.frame占用大约。200MB内存。但是,当我尝试使用as.DataFrame()函数将其加载到Spark中时,Rsession永远被占用,它已经运行了1小时,我不得不取消该操作。详情如下:我正在创建以下数据集以在此示例中使用:n=5e6#setsamplesized上面创建了一个示例data.frame大小,大约200mb:paste0("size:",round(as.numeric(object.size(d))/1000000,1),

hadoop - 将 Spark 2.X 连接到 ElasticSearch 2.X

我正在使用Spark和ElasticSearch,但找不到如何将Spark2.X与ElasticSearch2.x结合使用。ElasticSearchSpark库仅支持ES2.X的Spark1.6并支持ES5.alpha的Spark2你用什么把Spark连接到ElasticSearch? 最佳答案 请看这个。ApacheSparksupportApacheSpark是一种不依赖于Map/Reduce本身的计算框架,但它确实与Hadoop集成,主要是与HDFS集成。elasticsearch-hadoop允许以两种方式在Spark中使

hadoop - Spark RDD 分区与 Hadoop 拆分

我很难理解RDD分区和HDFS输入拆分之间的区别。因此,基本上当您提交Spark应用程序时:当Spark应用程序想要从HDFS读取时,HDFS上的该文件将具有输入拆分(假设每个64MB,并且这些输入拆分中的每一个都存在于不同的数据节点上)。现在假设Spark应用程序想要使用(sc.textFile(PATH_IN_HDFS))从HDFS加载该文件。该文件大约256MB,有4个输入拆分,其中2个拆分在数据节点1上,另外2个拆分在数据节点2上。现在,当Spark将这256MB加载到它的RDD抽象中时,它是否会将每个输入拆分(64mb)加载到4个独立的RDD中(你将在数据节点1和其他两个RD