scala-option

scala - Spark : Custom key compare method for reduceByKey

我需要在Scala中使用我自己的类作为键/值对中的键。特别是，我有一个包含两个变量id1和id2的简单类，我希望元素仅根据id2和不是id1。我在网上找不到任何关于如何以及在何处可以重写reduceByKey()方法的比较方法的信息，以便它可以根据我的自定义compare()方法。感谢任何帮助。谢谢你。最佳答案您不能覆盖reduceByKey的比较，因为它无法利用这样一个事实，即您的数据通常在整个集群中的不同执行程序上按key进行混洗。不过，您可以更改key(请注意，根据您使用的转换/操作，这可能会重新洗牌周围的数据)。RDD中

scala - 对于在映射器之间共享信息的增强版 MapReduce，什么是好的应用程序？

我正在构建Spark框架(http://www.spark-project.org/)的增强版。Spark是加州大学伯克利分校的一个项目，可以在RAM中快速执行MapReduce。Spark是用Scala构建的。我正在构建的增强功能允许映射器在计算时共享一些数据。这可能很有用，例如，如果每个映射器都在寻找最佳解决方案，并且他们都希望共享当前最佳解决方案(以尽早剔除不良解决方案)。该解决方案在传播时可能会稍微过时，但这仍应加快解决方案的速度。通常，这称为分支定界方法。我们可以共享单调递增的数字，也可以共享数组和字典。我们也在研究机器学习应用，其中映射器描述局部自然梯度信息，然后在所有节点

射器 MapReduce section noreferrer scala hadoop machine-learning computer-vision

scala - 获取 HDFS 中 Parquet 文件的大小，以便在 Scala 中使用 Spark 进行重新分区

我在HDFS上有许多parquet文件目录，每个目录包含几千个小的(大多数使用以下代码，我可以将本地parquet文件重新分区为更少的部分:valpqFile=sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")但我不知道如何通过Scala代码以编程方式获取HDFS上目录的大小，因此我无法计算出要传递给coalesce函数的分区数真实数据集。我该怎么做？或者在Spar

Parquet scala section hadoop apache-spark hdfs

scala - yarn 上的 Spark ；如何将指标发送到 Graphite 水槽？

我是spark的新手，我们正在运行sparkonyarn。我可以很好地运行我的测试应用程序。我正在尝试收集Graphite中的Spark指标。我知道要对metrics.properties文件进行哪些更改。但是我的spark应用程序将如何看到这个conf文件？/xxx/spark/spark-0.9.0-incubating-bin-hadoop2/bin/spark-classorg.apache.spark.deploy.yarn.Client--jar/xxx/spark/spark-0.9.0-incubating-bin-hadoop2/examples/target/sca

水槽 Graphite spark metrics code scala hadoop apache-spark

简单使用Spark、Scala完成对天气数据的指标统计

目录一、前言& 什么是Spark？& 什么是Scala二、数据准备（数据类型的转换）三、Spark部分1、使用Spark完成数据中的“风级”，“风向”、“天气情况”相关指标统计及筛选四、Scala部分1、使用Scala统计某月、全年的温差、平均气温以及最值等相关的指标五、遇到的问题：六、总结一、前言& 什么是Spark？Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms,MachinesandPeople）实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目，其诸多核心理

指标天气 34 xff strong spark scala 大数据

scala - Apache Spark 抛出 java.lang.IllegalStateException : unread block data

我们正在做的是:根据网站上的文档安装Spark0.9.1，以及hadoop/hdfs的CDH4(和另一个带有CDH5的集群)发行版。使用sbt构建带有Spark应用程序的fatjar，然后尝试在集群上运行它我还在底部包含了代码片段和sbtdeps。当我用谷歌搜索这个时，似乎有两个有点含糊的回答:a)节点/用户代码上的spark版本不匹配b)需要向SparkConf添加更多的jar现在我知道(b)不是在其他集群上成功运行相同代码但只包含一个jar(它是一个胖jar)的问题。但我不知道如何检查(a)-似乎Spark没有任何版本检查或任何东西-如果它检查版本并抛出“不匹配的版本异常:你有用户

IllegalStateException Apache 34 DAGScheduler scala hadoop hdfs apache-spark

scala - Spark 任务不可序列化(案例类)

当我在闭包中使用扩展Serializable的案例类或类/对象时，Spark抛出Tasknotserializable。objectWriteToHbaseextendsSerializable{defmain(args:Array[String]){valcsvRows:RDD[Array[String]=...valdateFormatter=DateTimeFormat.forPattern("yyyy-MM-ddHH:mm:ss")valusersRDD=csvRows.map(row=>{newUserTable(row(0),row(1),row(2),row(9),row

scala Spark String section UserTable hadoop serialization apache-spark closures

scala - flink reduceGroup 中的迭代器行为

我正在创建一个应该处理大量数据的系统，我需要了解reduce组运算符的工作原理我有一个数据集，我在其中应用了groupby，随后应用了reduceGroup传递给reduceGroup函数的迭代器如何运行？它是在请求数据时加载数据的惰性迭代器，还是在创建数据时在内存中准备所有数据的急切迭代器？我在flink0.9milestone1中使用scalaapi 最佳答案 Flink使用排序运算符对groupReduce进行分组。排序运算符接收一定的内存预算用于排序。只要数据符合此预算，排序就会在内存中进行。否则，排序将成为外部合并排序并溢

reduceGroup scala section 运算符 hadoop apache-flink

scala - Spark : SAXParseException while writing to parquet on s3

我正在尝试读取一些json，推断模式，然后将其作为parquet再次写出到s3(s3a)。出于某种原因，在运行的写入部分进行了大约三分之一的过程中，spark总是出错并出现以下错误。我找不到任何明显的问题原因:它不是内存不足；没有长时间的GC暂停。各个执行者的日志中似乎没有任何其他错误消息。该脚本在我拥有的另一组数据上运行良好，它具有非常相似的结构，但小了几个数量级。我正在运行spark2.0.1-hadoop-2.7并使用FileOutputCommitter。算法版本似乎并不重要。编辑:对于格式错误的json或损坏的文件，这似乎不是问题。我已经解压缩并单独读取每个文件，没有错误。这

SAXParseException parquet apache spark org scala hadoop apache-spark amazon-s3

scala 文件名太长

我正在使用scala2.10和gradle1.11我的问题是，当我尝试在hadoop集群中运行时，编译的jar会出现错误。我想在hadoop上运行，因为我使用scalding。异常(exception)情况是:Exceptioninthread"main"java.io.FileNotFoundException:/tmp/hadoop-root/hadoop-unjar6538587701808097105/com/twitter/bijection/GeneratedTupleCollectionInjections$$anon$31$$anonfun$invert$10$$ano

scala 文件名 anonfun section apply hadoop scalding

84 85 868788 89 90