草庐IT

spark-submit

全部标签

hadoop - 将 org.apache.spark.rdd.RDD[String] 转换为并行化集合

我的HDFS中有一个csv文件,其中包含一系列产品,例如:[56][85,66,73][57][8,16][25,96,22,17][83,61]我正在尝试在我的代码中应用关联规则算法。为此我需要运行这个:scala>valdata=sc.textFile("/user/cloudera/data")data:org.apache.spark.rdd.RDD[String]=/user/cloudera/dataMapPartitionsRDD[294]attextFileat:38scala>valdistData=sc.parallelize(data)但是当我提交这个时我得到了这

hadoop - 关于在 spark 上配置配置单元的问题

我已经下载了spark-2.0.0-bin-hadoop2.7。谁能建议如何在此配置配置单元并在scala控制台中使用?现在我可以使用Scala(spark-shell控制台)在文件上运行RDD。 最佳答案 遵循官方HiveonSpark文档:https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started您可以使用以下命令在Hive上设置Spark引擎:sethive.execution.engine=spark;或者通过将其添加到h

python - Hadoop/Spark 读取许多 CSV 文件

我有很多以非常有意义的方式存储的结构化数据,我想以同样有意义的完整和高效的方式处理它们。+-some-hdfs-path/+-level-1_var-01/|+-level-2_var-001.csv|+-...|+-level-2_var-nnn.csv+-level-1_var-02/|+-level-2_other-001.csv|+-...|+-level-2_other-mmm.csv+-.../+-level-1_var-nn/|+-...每个文件大约100MB,大约有1,000,000行。每个目录中的文件数量(通常约为100个)各不相同,文件名也各不相同。换句话说,我不知

hadoop - 如何有效地读取带有 spark 路径的文件,即想要返回 `wholeTextFiles` 的 `RDD[String, Iterator[String]]`

大数据中的一个常见问题是将数据转换为大数据友好格式(parquet或TSV)。在当前返回RDD[(String,String)](path->wholefileasstring)的SparkwholeTextFiles中,这是一种有用的方法,但会导致许多问题当文件很大时(主要是内存问题)。原则上应该可以使用底层HadoopAPI编写如下方法defwholeTextFilesIterators(path:String):RDD[(String,Iterator[String])]其中迭代器是文件(假设换行符作为分隔符)并且迭代器正在封装底层文件读取和缓冲。在阅读代码一段时间后,我认为解决

eclipse - Spark 在客户端机器上提交

我在本地系统的Eclipse中运行SparkTwitter情感分析代码。服务器中的所有hadoop和spark集群设置。是否可以在集群设置不是他们的本地系统中运行?如果是,请指导我如何操作。在运行时我给出的论点是>--classcom.dhruv.Predict\>--masterspark://:7077\>--num-executors2\>--executor-memory512m\>--executor-cores2\target/twittersentiment-0.0.1-jar-with-dependencies.jar\>hdfs://tmp/tweets/datase

hadoop - Spark/Hadoop - 无法找到 DIGEST-MD5 的 SASL 服务器实现

几个小时以来,我一直在尝试设置Hadoop/YARN,以便在其上执行Spark程序。但我遇到了一个错误,我完全找不到任何错误。当我尝试使用--masteryarn执行spark-submit或spark-shell命令时,出现以下异常:Applicationapplication_1481891851677_0002failed2timesduetoErrorlaunchingappattempt_1481891851677_0002_000002.Gotexception:org.apache.hadoop.security.AccessControlException:Unable

scala - 在 Scala/Spark 中从 RDD 中提取数据

所以我有一个大型数据集,它是一个stackoverflow用户群的样本。该数据集中的一行如下:我想从声誉中提取数字,在本例中是“11849”,从年龄中提取数字,在这个例子中是“35”,我希望将它们作为float。该文件位于HDFS中,因此采用RDD格式vallinesWithAge=lines.filter(line=>line.contains("Age="))//ThisisfilteringdatawhichdoesnthaveagevalrepSplit=linesWithAge.flatMap(line=>line.split("\""))//HereIamtryingtos

hadoop - 在主 Spark 作业中启动多个 Spark 作业

是否可以在主spark作业中生成多个spark作业,我的主要spark作业的驱动程序是在yarncluster上启动的,将进行一些预处理,并基于它,它需要在yarncluster上启动多个spark作业。不确定这种模式是否正确。主spark作业将启动其他spark-job,类似于在Spark驱动程序中调用多个spark-submit。这些为新作业生成的线程将是完全不同的组件,因此无法使用spark操作来实现它们。请分享您的想法。我为了更好地理解下面的示例代码..ObjectMainsparkjob{main(...){valsc=newSparkContext(..)Fetchfrom

scala - Spark 正在重复工作

我正面临来自Spark的奇怪行为。这是我的代码:objectMyJob{defmain(args:Array[String]):Unit={valsc=newSparkContext()valsqlContext=newhive.HiveContext(sc)valquery=""valrawData=sqlContext.sql(query).cache()valaggregatedData=rawData.groupBy("group_key").agg(max("col1").as("max"),min("col2").as("min"))valredisConfig=newRe

hadoop - Spark-SQL 在 yarn-cluster 上的错误 hdfs 权限

我有一个简单的工作,就是通过sparksql在hdfs中读取hive。我首先在yarn-client模式下运行它,我没有遇到任何问题。几次之后,我开始通过yarn-cluster模式启动它,但我遇到了这个问题:我有这个hdfs权限错误:Causedby:MetaException(message:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=EXECUTE,inode="/Projects/SNB/directory/Private/table/table_ORC"