草庐IT

spark-submit

全部标签

scala - Spark - SQL : value implicits is not a member of org. apache.spark.sql.SQLContext

您好,请找到下面的代码和相应的错误:即使我使用了导入语句,但仍然出现错误importorg.apache.spark.sql._valsparkConf=newSparkConf().setAppName("new_proj")implicitvalsc=newSparkContext(sparkConf)valsqlContext=neworg.apache.spark.sql.SQLContext(sc)importsqlContext._importsqlContext.implicits._valprojects=sqlContext.read.json("/part-m-00

hadoop - 在现有的 Hortonworks HDP 集群中安装 Spark 1.5

我是Hadoop的新手,想知道如何在现有的Hadoop集群上安装Spark1.5.1。4个节点,Ubuntu14.04。Hadoop2.3.2。安巴里版本2.1.2.1。已关注tutorial,但是有Ubuntu12的spark版本,我无法在我们的系统上安装它。所以在第1步之后我坚持了下来。sudoapt-getinstallspark_2_3_2_1_12-master-y出现错误:Readingpackagelists...DoneBuildingdependencytreeReadingstateinformation...DoneE:Unabletolocatepackages

python-2.7 - 将本地 IPython 笔记本连接到气隙集群上的 Spark

我有一台用于日常工作的W7机器。我的公司在私有(private)云上也有一个气隙Hadoop集群。我只能通过腻子访问云。当我想在集群上使用Spark时,我会启动putty,然后执行以下两项操作之一:只需从shell启动pyspark使用VNC访问集群上的RedHatGUI并从那里以Spark模式启动IPythonnotebook有没有办法使用我的本地W7IPython笔记本连接到Spark?在DanielDarabos发表评论后经过一些尝试和错误后进行编辑我按照thistutorial在我的W7机器上本地安装了Spark.然后,我创建了一个新的pyspark配置文件,并在thistut

hadoop - 从 Spark-JobServer(本地实例)连接到 Hadoop

我运行一个虚拟机,上面有Hadoop和Spark-JobServer的本地实例。我在HDFS上创建了一个名为“test.txt”的文件,我想从Spark-JobServer打开它。为此,我编写了以下代码:valtest1=sc.textFile("hdfs://quickstart.cloudera:8020/test.txt")valtest2=test1.countreturntest2但是,当我想运行这些行时,我在Spark-JobServer中遇到错误:"Inputpathdoesnotexist:hdfs://quickstart.cloudera:8020/test.txt

hadoop - Spark 无法检索特定列中的所有 Hbase 数据

我的Hbase表有3000万条记录,每条记录都有raw:sample列,raw是columnfamilysample是column。这个栏目很大,大小从几KB到50MB不等。当我运行下面的Spark代码时,它只能得到4万条记录,但我应该得到3000万条记录:valconf=HBaseConfiguration.create()conf.set("hbase.zookeeper.quorum","10.1.1.15:2181")conf.set(TableInputFormat.INPUT_TABLE,"sampleData")conf.set(TableInputFormat.SCAN

java - 来自现有 RDD 的 Spark Streaming

任何人请帮助我如何从现有的RDD创建DStream。我的代码是:JavaSparkContextctx=newJavaSparkContext(conf);JavaRDDrddd=ctx.parallelize(arraylist);现在我需要使用这些rddd作为JavaStreamingContext的输入。 最佳答案 试一试queueStreamAPI.RDD队列作为一个Stream,每一个插入队列的RDD在DStream中都会被当作一批数据,像流一样处理。publicInputDStreamqueueStream(scala.

python - Hadoop Spark 1.4.1 - 对多个 CSV 文件进行排序并将排序后的结果保存在 1 个输出文件中

我在HDFS中有3个文件,我想使用最有效的方式首先在第一列对它们进行排序,然后在第二列进行排序,然后使用Spark1.4中的Scala(或Python)将排序后的结果存储回HDFS上的一个新文件。1:hdfs:///test/2016/file.csvhdfs:///test/2015/file.csvhdfs:///test/2014/file.csv文件看起来像这样(没有标题):hdfs:///test/2016/file.csv127,56,abc125,56,abc121,56,abchdfs:///test/2016/file.csv126,66,abc122,56,abc1

hadoop - 在免费hadoop模式下运行官方示例时出现Spark异常

Hadoop:hadoop-2.6.4Spark:spark-1.6.0-bin-without-hadoopJAVA_HOME和Hadoop/bin文件夹在$PATH中在conf/spark-env.sh中导出SPARK_DIST_CLASSPATH=$(/hadoop-2.6.4/bin/hadoop类路径)当我从Spark(bin/run-exampleSparkPi)运行示例时,异常如下:16/03/1920:44:09INFOspark.SparkContext:RunningSparkversion1.6.016/03/1920:44:10WARNutil.NativeCo

Hadoop 可以列出 s3 内容,但 spark-shell 抛出 ClassNotFoundException

我的传奇还在继续-简而言之,我正在尝试为spark创建一个测试堆栈-旨在从s3存储桶中读取文件,然后将其写入另一个存储桶。Windows环境。我在尝试访问S3或S3n时反复遇到错误,因为抛出了ClassNotFoundException。这些类作为s3和s3n.impl添加到core-site.xml我将hadoop/share/tools/lib添加到类路径中无济于事,然后我将aws-java-jdk和hadoop-awsjar添加到share/hadoop/common文件夹,我现在可以在命令行上使用haddop列出存储桶的内容。hadoopfs-ls"s3n://bucket"显

java - 如何通过 Yarn、Hadoop 提交 Spark scala 作业

我是Spark的新手,我正在尝试在伪分布式Hadoop系统上运行Scala作业。Hadoop2.6+Yarn+Spark1.6.1+scala2.10.6+JVM8,一切从头开始安装。我的Scala应用程序是简单的WordCount示例,我不知道错误是什么。/usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scalapackagecom.mydomain.spark.wordcountimportorg.apache.spark.{SparkConf,SparkCon