草庐IT

sparking

全部标签

hadoop - 从 Spark-JobServer(本地实例)连接到 Hadoop

我运行一个虚拟机,上面有Hadoop和Spark-JobServer的本地实例。我在HDFS上创建了一个名为“test.txt”的文件,我想从Spark-JobServer打开它。为此,我编写了以下代码:valtest1=sc.textFile("hdfs://quickstart.cloudera:8020/test.txt")valtest2=test1.countreturntest2但是,当我想运行这些行时,我在Spark-JobServer中遇到错误:"Inputpathdoesnotexist:hdfs://quickstart.cloudera:8020/test.txt

hadoop - Spark 无法检索特定列中的所有 Hbase 数据

我的Hbase表有3000万条记录,每条记录都有raw:sample列,raw是columnfamilysample是column。这个栏目很大,大小从几KB到50MB不等。当我运行下面的Spark代码时,它只能得到4万条记录,但我应该得到3000万条记录:valconf=HBaseConfiguration.create()conf.set("hbase.zookeeper.quorum","10.1.1.15:2181")conf.set(TableInputFormat.INPUT_TABLE,"sampleData")conf.set(TableInputFormat.SCAN

java - 来自现有 RDD 的 Spark Streaming

任何人请帮助我如何从现有的RDD创建DStream。我的代码是:JavaSparkContextctx=newJavaSparkContext(conf);JavaRDDrddd=ctx.parallelize(arraylist);现在我需要使用这些rddd作为JavaStreamingContext的输入。 最佳答案 试一试queueStreamAPI.RDD队列作为一个Stream,每一个插入队列的RDD在DStream中都会被当作一批数据,像流一样处理。publicInputDStreamqueueStream(scala.

python - Hadoop Spark 1.4.1 - 对多个 CSV 文件进行排序并将排序后的结果保存在 1 个输出文件中

我在HDFS中有3个文件,我想使用最有效的方式首先在第一列对它们进行排序,然后在第二列进行排序,然后使用Spark1.4中的Scala(或Python)将排序后的结果存储回HDFS上的一个新文件。1:hdfs:///test/2016/file.csvhdfs:///test/2015/file.csvhdfs:///test/2014/file.csv文件看起来像这样(没有标题):hdfs:///test/2016/file.csv127,56,abc125,56,abc121,56,abchdfs:///test/2016/file.csv126,66,abc122,56,abc1

hadoop - 在免费hadoop模式下运行官方示例时出现Spark异常

Hadoop:hadoop-2.6.4Spark:spark-1.6.0-bin-without-hadoopJAVA_HOME和Hadoop/bin文件夹在$PATH中在conf/spark-env.sh中导出SPARK_DIST_CLASSPATH=$(/hadoop-2.6.4/bin/hadoop类路径)当我从Spark(bin/run-exampleSparkPi)运行示例时,异常如下:16/03/1920:44:09INFOspark.SparkContext:RunningSparkversion1.6.016/03/1920:44:10WARNutil.NativeCo

Hadoop 可以列出 s3 内容,但 spark-shell 抛出 ClassNotFoundException

我的传奇还在继续-简而言之,我正在尝试为spark创建一个测试堆栈-旨在从s3存储桶中读取文件,然后将其写入另一个存储桶。Windows环境。我在尝试访问S3或S3n时反复遇到错误,因为抛出了ClassNotFoundException。这些类作为s3和s3n.impl添加到core-site.xml我将hadoop/share/tools/lib添加到类路径中无济于事,然后我将aws-java-jdk和hadoop-awsjar添加到share/hadoop/common文件夹,我现在可以在命令行上使用haddop列出存储桶的内容。hadoopfs-ls"s3n://bucket"显

java - 如何通过 Yarn、Hadoop 提交 Spark scala 作业

我是Spark的新手,我正在尝试在伪分布式Hadoop系统上运行Scala作业。Hadoop2.6+Yarn+Spark1.6.1+scala2.10.6+JVM8,一切从头开始安装。我的Scala应用程序是简单的WordCount示例,我不知道错误是什么。/usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scalapackagecom.mydomain.spark.wordcountimportorg.apache.spark.{SparkConf,SparkCon

hadoop - Spark 节俭服务器无法启动

我在Windows中使用以下命令在安全的yarn-2.7.2上运行带有Hive-1.2.1的spark1.5.2thrift服务器spark-submit--classorg.apache.spark.sql.hive.thriftserver.HiveThriftServer2--masteryarn-client"C:\Spark\lib\spark-hive-thriftserver_2.10-1.5.2.jar"它因以下异常而停止,16/04/1112:31:00INFOAbstractService:Service:HiveServer2isstarted.16/04/111

hadoop - 加入两个数据集时如何在 Apache Spark 中指定键

我正在加载两个文件,如下所示-f1=sc.textFile("s3://testfolder1/file1")f2=sc.textFile("s3://testfolder2/file2")此加载操作为我提供了元组列表。为每一行创建一个元组。file1和file2的架构如下-f1(a,b,c,d,e,f,g,h,i)f2(x,y,z,a,b,c,f,r,u)我想根据字段a、b、c连接这两个数据集。我做了一些研究,发现下面的方法可能有用。rdd.keyBy(func)但是,我找不到一种简单的方法来指定键和连接两个数据集。任何人都可以演示如何在不使用DataFrames的情况下做到这一点吗

hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性?

我是否需要将Spark与YARN结合使用才能通过HDFS实现NODELOCAL数据局部性?如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中,Spark如何知道数据位于本地节点上? 最佳答案 YARN是一个资源管理器。它处理内存和进程,而不处理HDFS或数据局部性的工作。既然Spark可以从HDFS源中读取,并且名称节点和数据节点负责YARN之外的所有HDFSblock数据管理,那么我认为答案是否定的,您不需要YARN。但是您已经拥有HDFS,这意味着您拥有Hadoop,那么为什么不利用将Spark集成到YARN中呢