草庐IT

spark-ml

全部标签

java - 来自现有 RDD 的 Spark Streaming

任何人请帮助我如何从现有的RDD创建DStream。我的代码是:JavaSparkContextctx=newJavaSparkContext(conf);JavaRDDrddd=ctx.parallelize(arraylist);现在我需要使用这些rddd作为JavaStreamingContext的输入。 最佳答案 试一试queueStreamAPI.RDD队列作为一个Stream,每一个插入队列的RDD在DStream中都会被当作一批数据,像流一样处理。publicInputDStreamqueueStream(scala.

python - Hadoop Spark 1.4.1 - 对多个 CSV 文件进行排序并将排序后的结果保存在 1 个输出文件中

我在HDFS中有3个文件,我想使用最有效的方式首先在第一列对它们进行排序,然后在第二列进行排序,然后使用Spark1.4中的Scala(或Python)将排序后的结果存储回HDFS上的一个新文件。1:hdfs:///test/2016/file.csvhdfs:///test/2015/file.csvhdfs:///test/2014/file.csv文件看起来像这样(没有标题):hdfs:///test/2016/file.csv127,56,abc125,56,abc121,56,abchdfs:///test/2016/file.csv126,66,abc122,56,abc1

hadoop - 在免费hadoop模式下运行官方示例时出现Spark异常

Hadoop:hadoop-2.6.4Spark:spark-1.6.0-bin-without-hadoopJAVA_HOME和Hadoop/bin文件夹在$PATH中在conf/spark-env.sh中导出SPARK_DIST_CLASSPATH=$(/hadoop-2.6.4/bin/hadoop类路径)当我从Spark(bin/run-exampleSparkPi)运行示例时,异常如下:16/03/1920:44:09INFOspark.SparkContext:RunningSparkversion1.6.016/03/1920:44:10WARNutil.NativeCo

Hadoop 可以列出 s3 内容,但 spark-shell 抛出 ClassNotFoundException

我的传奇还在继续-简而言之,我正在尝试为spark创建一个测试堆栈-旨在从s3存储桶中读取文件,然后将其写入另一个存储桶。Windows环境。我在尝试访问S3或S3n时反复遇到错误,因为抛出了ClassNotFoundException。这些类作为s3和s3n.impl添加到core-site.xml我将hadoop/share/tools/lib添加到类路径中无济于事,然后我将aws-java-jdk和hadoop-awsjar添加到share/hadoop/common文件夹,我现在可以在命令行上使用haddop列出存储桶的内容。hadoopfs-ls"s3n://bucket"显

java - 如何通过 Yarn、Hadoop 提交 Spark scala 作业

我是Spark的新手,我正在尝试在伪分布式Hadoop系统上运行Scala作业。Hadoop2.6+Yarn+Spark1.6.1+scala2.10.6+JVM8,一切从头开始安装。我的Scala应用程序是简单的WordCount示例,我不知道错误是什么。/usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scalapackagecom.mydomain.spark.wordcountimportorg.apache.spark.{SparkConf,SparkCon

hadoop - Spark 节俭服务器无法启动

我在Windows中使用以下命令在安全的yarn-2.7.2上运行带有Hive-1.2.1的spark1.5.2thrift服务器spark-submit--classorg.apache.spark.sql.hive.thriftserver.HiveThriftServer2--masteryarn-client"C:\Spark\lib\spark-hive-thriftserver_2.10-1.5.2.jar"它因以下异常而停止,16/04/1112:31:00INFOAbstractService:Service:HiveServer2isstarted.16/04/111

hadoop - 加入两个数据集时如何在 Apache Spark 中指定键

我正在加载两个文件,如下所示-f1=sc.textFile("s3://testfolder1/file1")f2=sc.textFile("s3://testfolder2/file2")此加载操作为我提供了元组列表。为每一行创建一个元组。file1和file2的架构如下-f1(a,b,c,d,e,f,g,h,i)f2(x,y,z,a,b,c,f,r,u)我想根据字段a、b、c连接这两个数据集。我做了一些研究,发现下面的方法可能有用。rdd.keyBy(func)但是,我找不到一种简单的方法来指定键和连接两个数据集。任何人都可以演示如何在不使用DataFrames的情况下做到这一点吗

hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性?

我是否需要将Spark与YARN结合使用才能通过HDFS实现NODELOCAL数据局部性?如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中,Spark如何知道数据位于本地节点上? 最佳答案 YARN是一个资源管理器。它处理内存和进程,而不处理HDFS或数据局部性的工作。既然Spark可以从HDFS源中读取,并且名称节点和数据节点负责YARN之外的所有HDFSblock数据管理,那么我认为答案是否定的,您不需要YARN。但是您已经拥有HDFS,这意味着您拥有Hadoop,那么为什么不利用将Spark集成到YARN中呢

hadoop - 如何以未压缩的文本格式将 Spark Dataframe 存储在配置单元中

我正在尝试将数据框存储到外部配置单元表中。当我执行以下操作时:recordDF.write.option("path","hdfs://quickstart.cloudera:8020/user/cloudera/hadoop/hive/warehouse/VerizonProduct").saveAsTable("productstoreHTable")在本应存在表的hdfs位置,我得到了这个:-rw-r--r--3clouderacloudera02016-12-2518:58hadoop/hive/warehouse/VerizonProduct/_SUCCESS-rw-r--r

scala - 如何根据两列订购spark RDD

我有以下RDD数据集:ABC[G4,G3,G1]3FFF[G5,G4,G3]3CDE[G5,G4,G3,G2]4XYZ[G4,G3]2需要先按最后一列desc排序,如果最后一列相同,则按第一个元组项desc顺序排序。预期的结果是CDE[G5,G4,G3,G2]4FFF[G5,G4,G3]3ABC[G4,G3,G1]3XYZ[G4,G3]2提前致谢。 最佳答案 您可以使用sortBy:rdd.sortBy(r=>(r._3,r._2(0)),false)上面的r._3代表最后一列,r._2(0)代表第二列的第一个元素(是一个数组),而