spark-submit

scala - Spark - SQL : value implicits is not a member of org. apache.spark.sql.SQLContext

您好，请找到下面的代码和相应的错误:即使我使用了导入语句，但仍然出现错误importorg.apache.spark.sql._valsparkConf=newSparkConf().setAppName("new_proj")implicitvalsc=newSparkContext(sparkConf)valsqlContext=neworg.apache.spark.sql.SQLContext(sc)importsqlContext._importsqlContext.implicits._valprojects=sqlContext.read.json("/part-m-00

SQLContext implicits spark 34 apache scala hadoop sbt apache-spark-sql spark-streaming

hadoop - 在现有的 Hortonworks HDP 集群中安装 Spark 1.5

我是Hadoop的新手，想知道如何在现有的Hadoop集群上安装Spark1.5.1。4个节点，Ubuntu14.04。Hadoop2.3.2。安巴里版本2.1.2.1。已关注tutorial，但是有Ubuntu12的spark版本，我无法在我们的系统上安装它。所以在第1步之后我坚持了下来。sudoapt-getinstallspark_2_3_2_1_12-master-y出现错误:Readingpackagelists...DoneBuildingdependencytreeReadingstateinformation...DoneE:Unabletolocatepackages

中安 Hortonworks section Spark hadoop apache-spark hortonworks-data-platform

python-2.7 - 将本地 IPython 笔记本连接到气隙集群上的 Spark

我有一台用于日常工作的W7机器。我的公司在私有(private)云上也有一个气隙Hadoop集群。我只能通过腻子访问云。当我想在集群上使用Spark时，我会启动putty，然后执行以下两项操作之一:只需从shell启动pyspark使用VNC访问集群上的RedHatGUI并从那里以Spark模式启动IPythonnotebook有没有办法使用我的本地W7IPython笔记本连接到Spark？在DanielDarabos发表评论后经过一些尝试和错误后进行编辑我按照thistutorial在我的W7机器上本地安装了Spark.然后，我创建了一个新的pyspark配置文件，并在thistut

气隙本连 SparkContext Spark python-2.7 hadoop ipython-notebook putty pyspark

hadoop - 从 Spark-JobServer(本地实例)连接到 Hadoop

我运行一个虚拟机，上面有Hadoop和Spark-JobServer的本地实例。我在HDFS上创建了一个名为“test.txt”的文件，我想从Spark-JobServer打开它。为此，我编写了以下代码:valtest1=sc.textFile("hdfs://quickstart.cloudera:8020/test.txt")valtest2=test1.countreturntest2但是，当我想运行这些行时，我在Spark-JobServer中遇到错误:"Inputpathdoesnotexist:hdfs://quickstart.cloudera:8020/test.txt

Spark-JobServer JobServer code test section hadoop apache-spark

hadoop - Spark 无法检索特定列中的所有 Hbase 数据

我的Hbase表有3000万条记录，每条记录都有raw:sample列，raw是columnfamilysample是column。这个栏目很大，大小从几KB到50MB不等。当我运行下面的Spark代码时，它只能得到4万条记录，但我应该得到3000万条记录:valconf=HBaseConfiguration.create()conf.set("hbase.zookeeper.quorum","10.1.1.15:2181")conf.set(TableInputFormat.INPUT_TABLE,"sampleData")conf.set(TableInputFormat.SCAN

hadoop Spark code 34 section apache-spark mapreduce hbase

java - 来自现有 RDD 的 Spark Streaming

任何人请帮助我如何从现有的RDD创建DStream。我的代码是:JavaSparkContextctx=newJavaSparkContext(conf);JavaRDDrddd=ctx.parallelize(arraylist);现在我需要使用这些rddd作为JavaStreamingContext的输入。最佳答案试一试queueStreamAPI.RDD队列作为一个Stream，每一个插入队列的RDD在DStream中都会被当作一批数据，像流一样处理。publicInputDStreamqueueStream(scala.

Streaming Spark section queueStream strong java hadoop apache-spark spark-streaming

python - Hadoop Spark 1.4.1 - 对多个 CSV 文件进行排序并将排序后的结果保存在 1 个输出文件中

我在HDFS中有3个文件，我想使用最有效的方式首先在第一列对它们进行排序，然后在第二列进行排序，然后使用Spark1.4中的Scala(或Python)将排序后的结果存储回HDFS上的一个新文件。1:hdfs:///test/2016/file.csvhdfs:///test/2015/file.csvhdfs:///test/2014/file.csv文件看起来像这样(没有标题):hdfs:///test/2016/file.csv127,56,abc125,56,abc121,56,abchdfs:///test/2016/file.csv126,66,abc122,56,abc1

并将 python abc br file scala csv hadoop apache-spark

hadoop - 在免费hadoop模式下运行官方示例时出现Spark异常

Hadoop:hadoop-2.6.4Spark:spark-1.6.0-bin-without-hadoopJAVA_HOME和Hadoop/bin文件夹在$PATH中在conf/spark-env.sh中导出SPARK_DIST_CLASSPATH=$(/hadoop-2.6.4/bin/hadoop类路径)当我从Spark(bin/run-exampleSparkPi)运行示例时，异常如下:16/03/1920:44:09INFOspark.SparkContext:RunningSparkversion1.6.016/03/1920:44:10WARNutil.NativeCo

时出 hadoop spark apache DAGScheduler apache-spark

Hadoop 可以列出 s3 内容，但 spark-shell 抛出 ClassNotFoundException

我的传奇还在继续-简而言之，我正在尝试为spark创建一个测试堆栈-旨在从s3存储桶中读取文件，然后将其写入另一个存储桶。Windows环境。我在尝试访问S3或S3n时反复遇到错误，因为抛出了ClassNotFoundException。这些类作为s3和s3n.impl添加到core-site.xml我将hadoop/share/tools/lib添加到类路径中无济于事，然后我将aws-java-jdk和hadoop-awsjar添加到share/hadoop/common文件夹，我现在可以在命令行上使用haddop列出存储桶的内容。hadoopfs-ls"s3n://bucket"显

ClassNotFoundException spark-shell hadoop code amazon-web-services amazon-s3 apache-spark

java - 如何通过 Yarn、Hadoop 提交 Spark scala 作业

我是Spark的新手，我正在尝试在伪分布式Hadoop系统上运行Scala作业。Hadoop2.6+Yarn+Spark1.6.1+scala2.10.6+JVM8，一切从头开始安装。我的Scala应用程序是简单的WordCount示例，我不知道错误是什么。/usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scalapackagecom.mydomain.spark.wordcountimportorg.apache.spark.{SparkConf,SparkCon

Hadoop Spark SparkSubmit apache java scala apache-spark hadoop2

196 197 198199200 201 202