scala-compiler

scala - 如何在 HDP(Hortonworks 数据平台)中安装 Scala 库

提前感谢您花时间阅读本文，抱歉我的英语不好。我正在尝试使用Spark流进行实时数据处理。我在HDP(Hortonworks数据平台)中安装了Spark，对于我的流程，我需要为JSONparsing安装一个scala库。我在互联网上阅读了很多关于此的内容，但它只是针对一个简单的SparkCluster，而不是针对HDP和CDH之类的解决方案，我尝试调整该解决方案但我做不到，我找不到任何scala文件来安装它.有人知道可以帮助我的解决方案或提示吗？谢谢最佳答案要在Zeppelin中加载Spark的依赖项，您需要创建一个新单元并使用以

中安何在 section interpreter scala hadoop apache-spark spark-streaming hortonworks-data-platform

scala - 如何使用 spark 在 Hive 中正确加载数据？

我想输入看起来像-"58;""management"";""married"";""tertiary"";""no"";2143;""yes"";""no"";""unknown"";5;""may"";261;1;-1;0;""unknown"";""no""""44;""technician"";""single"";""secondary"";""no"";29;""yes"";""no"";""unknown"";5;""may"";151;1;-1;0;""unknown"";""no""""33;""entrepreneur"";""married"";""secondar

scala spark 34 code unknown hadoop apache-spark hive hiveql

scala - Spark : java. io.FileNotFoundException:copyMerge 中不存在文件

我正在尝试将所有spark输出部分文件合并到一个目录中，并在Scala中创建一个文件。这是我的代码:importorg.apache.spark.sql.functions.input_file_nameimportorg.apache.spark.sql.functions.regexp_extractdefmerge(srcPath:String,dstPath:String):Unit={valhadoopConfig=newConfiguration()valhdfs=FileSystem.get(hadoopConfig)FileUtil.copyMerge(hdfs,new

FileNotFoundException copyMerge section 34 scala hadoop apache-spark hdfs spark-csv

python - 从任务中调用 Java/Scala 函数

背景我最初的问题是为什么在map函数中使用DecisionTreeModel.predict会引发异常？并且与Howtogeneratetuplesof(originallable,predictedlabel)onSparkwithMLlib?有关当我们使用ScalaAPI时arecommendedway使用DecisionTreeModel获取RDD[LabeledPoint]的预测是简单地映射RDD:vallabelAndPreds=testData.map{point=>valprediction=model.predict(point.features)(point.labe

python Scala noreferrer code noopener apache-spark pyspark apache-spark-mllib

scala - 文件合并逻辑 : scala

对于Scala专家来说，这可能是一个愚蠢的问题，但作为初学者，我很难确定解决方案。任何指针都会有所帮助。我在HDFS位置按名称设置了3个文件:fileFirst.datfileSecond.datfileThird.dat它们不一定会以任何顺序存储。fileFirst.dat可以在最后创建，因此每次ls都会显示不同的文件顺序。我的任务是按以下顺序将所有文件合并到一个文件中:fileFirst内容，然后是fileSecond内容，最后是fileThird内容；以换行符作为分隔符，没有空格。我尝试了一些想法，但无法想出一些可行的方法。每次组合的顺序搞乱。下面是我合并所有进来的东西的函数:d

scala 文件 code section pre hadoop

scala - 烫伤:成对比较字符串？

使用Scalding我需要:按前3个字符对字符串字段进行分组使用edit-distance指标(http://en.wikipedia.org/wiki/Edit_distance)比较每组中所有对的字符串将结果写入CSV文件，记录为string；字符串;距离为了对字符串进行分组，我使用了map和groupBy，如下例所示:importcascading.tuple.Fieldsimportcom.twitter.scalding._classScan(args:Args)extendsJob(args){valoutput=TextLine("tmp/out.txt")valword

烫伤 scala code 39 String hadoop edit-distance scalding

scala - groupBy toList 元素顺序

我有一个包含多个字段的RichPipe，比方说:'sex'weight'age我需要按“性别”分组，然后获取元组列表(“体重”和“年龄”)。然后我想对每个组的列表执行scanLeft操作，并获得带有“性别”和“结果”的管道。我目前通过这样做来做到这一点pipe.groupBy('sex){_.toList('weight->'weights).toList('age-'ages)}然后将两个列表压缩在一起。我不确定这是最好的方法，而且我不确定列表中值的顺序是否相同，所以当我压缩两个列表时，元组不会混淆错误值。我在文档中没有发现任何相关信息。最佳答案

groupBy toList section 39 code scala hadoop mapreduce cascading scalding

scala - Spark - 使用 BytesWritable 类型按键排序

我想使用hadoop示例RandomWriter进行基准测试并生成文件。键和值的类型都是BytesWritable。那么我该如何使用Spark对这个文件进行排序呢？看来我不能直接调用sortByKey()。最佳答案您要做的是在RDD中使用.sortBy方法。，正确的？这就是为什么您找不到OrderedRDDFunctions的.sortByKey方法的原因。正如@JustinPihony指出的那样，这需要对key进行隐式排序，在本例中(AFAIK)将定义为:implicitvalrandomWriterOrdering=newO

BytesWritable 按键 code section RandomWriter scala hadoop apache-spark

scala - Apache-Spark 内部作业调度

我在Spark中发现了这个功能，它允许您在spark上下文中安排不同的任务。我想在一个程序中实现这个特性，在这个程序中我映射我的输入RDD(fromatextsource)到一个键值RDD[K,V]随后生成一个复合键值RDD[(K1,K2),V]和一个包含一些特定值的过滤RDD。进一步的管道涉及在RDD和join操作上从MLlib调用一些统计方法，然后将结果外部化到磁盘。我正在尝试了解spark的内部公平调度程序将如何处理这些操作。我尝试阅读作业调度文档，但对pools、users和tasks的概念感到更加困惑。pools到底是什么，它们是特定的'tasks'可以组合在一起还是它们是l

Apache-Spark Apache code section 中安 scala hadoop analytics

scala - Spark utf 8错误，非英文数据变成 `??????????`

我们数据中的一个字段是非英语语言(泰语)。我们可以将数据加载到HDFS中，运行时系统会正确显示非英文字段:hadoopfs-cat/datafile.txt但是，当我们使用Spark加载显示数据时，所有非英文数据都显示????????????????我们在运行Spark时添加了以下内容:System.setProperty("file.encoding","UTF-8")有没有人看过这个？在Spark中使用非英文数据需要做什么？我们在Ubuntu14.04上运行Spark1.3.0、Scala2.10.4。我们运行测试的命令是:valtextFile=sc.textFile(input

scala Spark code section hadoop apache-spark

63 64 656667 68 69