sparking_草庐IT

java - spark-1.5.1 在 java 代码中使用 HiveContext 抛出配置单元 1.2.0 的内存错误

我有一个用于HADOOP2.6的spark-1.5.1在我的本地机器上以独立模式运行。我正在尝试从示例Java应用程序运行配置单元查询，将spark.master指向在我的本地计算机上运行的(spark://impetus-i0248u:7077)sparkmaster。这是一段java代码:SparkConfsparkconf=newSparkConf().set("spark.master","spark://impetus-i0248u:7077").set("spark.app.name","sparkhivesqltest").set("spark.cores.max","2

配置单 java 34 UncaughtExceptionHandler Exception hadoop apache-spark hive apache-spark-sql

python - Spark 1.5.2 + Hadoop 2.6.2 spark-submit 和 pyspark 不使用独立的所有节点

我在独立模式下运行spark-submit或pyspark时遇到问题，如下所示:spark/bin/pyspark--masterspark://:这通常会使用所有节点(至少在以前的版本中)在UI中创建一个正在运行的Spark应用程序。出于某种原因，这样做只会在主节点上运行它，尽管UI显示所有节点都连接到主节点。从节点上的日志中没有错误。任何人都知道可能出了什么问题？作为引用，我的spark-env.sh具有以下配置:exportHADOOP_CONF_DIR=/mnt/hadoop/etc/hadoopexportSPARK_PUBLIC_DNS=exportSPARK_MASTER

有节 spark-submit spark INFO hadoop python apache-spark pyspark

scala - Spark SBT 程序尝试从本地文件系统而不是 IntelliJ 项目中的 hdfs 读取

我安装了Hadoop(hadoop-2.7.2.tar.gz)和Spark(spark-1.6.0-bin-without-hadoop.tgz)。两者均已正确配置以协同工作。我能够遵循this的scala版本动手教程，以读取存储在hdfs上的文件并应用ALS算法提供建议。但是现在当我尝试在IntelliJIDE中做同样的事情时，我得到了这个错误:Exceptioninthread"main"org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/data/movielens/medium我想

IntelliJ scala movieLensHomeDir section code hadoop intellij-idea apache-spark

hadoop - 即使以管理员身份运行，在 Windows 上运行 Spark 错误 5(拒绝访问)

我刚开始使用Spark，所以不太确定我的问题出在哪里，并在这里寻找有用的提示。我正在尝试以管理员身份在Windows7计算机上运行Spark(pyspark)，但它似乎无法正常工作(我仍然收到WindowsError5)。见下图:我已经下载了文件(版本1.2.0，为Hadoop2.4或更高版本预构建)，通过命令行使用tar将其解压缩，并在调用bin\pyspark之前设置IPYTHON=1。当我调用它时，pyspark会运行，但我会根据图像收到以下错误。当我尝试调用某些SparkContext对象时，我得到名称“sc”未定义。我已经安装了python2.7.8，SpyderIDE并且在

即使 Windows code section pyspark hadoop apache-spark ipython windowserror

hadoop - spark 是否有可能同时读取 HDFS 数据和进行一些计算？

例如，我在Spark平台上运行了以下工作计数应用程序:valtextFile=sc.textFile("hdfs://...")valcounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.saveAsTextFile("hdfs://...")假设有一个worker需要处理1Gb数据，那么这个worker是否有可能在获取所有1Gb数据之前开始做一些计算(比如flatMap)？最佳答案一般来说，是的，但是您的

hadoop spark section the blockquote apache-spark hdfs

postgresql - 如何将 Postgres(二进制或文本)转储文件导入 Spark 或 HDFS？

我想在Spark中使用Postgres(二进制或文本)转储文件，想知道如何导入它？我知道我们可以使用Sqoop将Postgres导入HDFS，并且我可以从Spark访问HDFS，但是如果我只有转储文件怎么办？我是否必须先将其恢复到Postgres数据库中？我宁愿不要。最佳答案使用pg_restore--data-only-tmy_tabledb.dump你应该得到制表符分隔的文本，其中包含一些注释和一些额外的命令，过滤掉你不需要的一切会很简单'不想将该文件写入HDFS。然后就是将该文件作为CSV文件从Spark或MapReduc

postgresql Postgres section 该文 hadoop apache-spark hdfs sqoop

java - 从 Eclipse IDE 在 YARN 上提交 Spark 应用程序

当我尝试通过Eclipse在Yarn上提交我的Spark应用程序时，我遇到了一个问题。我尝试提交一个简单的SVM程序，但出现以下错误。我有macbook，如果有人能给我详细的答案，我将不胜感激16/09/1710:04:19ERRORSparkContext:ErrorinitializingSparkContext.java.lang.IllegalStateException:Librarydirectory'.../MyProject/assembly/target/scala-2.11/jars'doesnotexist;makesureSparkisbuilt.atorg.a

Eclipse Spark apache section java hadoop apache-spark

r - 如何使用 SparkR 的 as.DataFrame() 将大型 R data.frames 加载到 Spark 中？

我的目标是将大型Rdata.frame加载到Spark中。data.frame的大小是500万。各种类型的行和7列。一旦加载到R中，这个data.frame占用大约。200MB内存。但是，当我尝试使用as.DataFrame()函数将其加载到Spark中时，Rsession永远被占用，它已经运行了1小时，我不得不取消该操作。详情如下:我正在创建以下数据集以在此示例中使用:n=5e6#setsamplesized上面创建了一个示例data.frame大小，大约200mb:paste0("size:",round(as.numeric(object.size(d))/1000000,1),

DataFrame 大型 sample replace 34 r hadoop apache-spark sparkr

hadoop - 将 Spark 2.X 连接到 ElasticSearch 2.X

我正在使用Spark和ElasticSearch，但找不到如何将Spark2.X与ElasticSearch2.x结合使用。ElasticSearchSpark库仅支持ES2.X的Spark1.6并支持ES5.alpha的Spark2你用什么把Spark连接到ElasticSearch？最佳答案请看这个。ApacheSparksupportApacheSpark是一种不依赖于Map/Reduce本身的计算框架，但它确实与Hadoop集成，主要是与HDFS集成。elasticsearch-hadoop允许以两种方式在Spark中使

ElasticSearch hadoop Spark section apache-spark elasticsearch-2.0

hadoop - Spark RDD 分区与 Hadoop 拆分

我很难理解RDD分区和HDFS输入拆分之间的区别。因此，基本上当您提交Spark应用程序时:当Spark应用程序想要从HDFS读取时，HDFS上的该文件将具有输入拆分(假设每个64MB，并且这些输入拆分中的每一个都存在于不同的数据节点上)。现在假设Spark应用程序想要使用(sc.textFile(PATH_IN_HDFS))从HDFS加载该文件。该文件大约256MB，有4个输入拆分，其中2个拆分在数据节点1上，另外2个拆分在数据节点2上。现在，当Spark将这256MB加载到它的RDD抽象中时，它是否会将每个输入拆分(64mb)加载到4个独立的RDD中(你将在数据节点1和其他两个RD

hadoop section RDD Spark apache-spark hdfs