scala-cats

scala - 通过 Spark 访问 HBase 表

我正在使用这个代码示例http://www.vidyasource.com/blog/Programming/Scala/Java/Data/Hadoop/Analytics/2014/01/25/lighting-a-spark-with-hbase使用Spark读取hbase表，唯一的变化是通过代码添加hbase.zookeeper.quorum，因为它不是从hbase-site.xml中选取它。星火1.5.3HBase0.98.0我正面临这个错误-java.lang.IllegalAccessError:com/google/protobuf/HBaseZeroCopyByteS

scala - 使用 Apache Spark 作为 Web 应用程序的后端

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我们在HDFS中存储了数TB的数据，其中包括客户数据和行为信息。业务分析师希望使用过滤器对这些数据进行切片和切block。这些过滤器类似于SparkRDD过滤器。过滤器的一些示例是:age>18andage,datebetween10-02-2015,20-02-2015,gender=male,countryin(UK,US,India)等。我们希望将此过滤器功能集成到我们基于JSF(或Play)的We

Apache scala section code class hadoop apache-spark

scala - 使用 Spark 列出 Hadoop HDFS 目录中的所有文件？

我想遍历Hadoop目录中的所有文本文件并计算单词“error”的所有出现次数。有没有办法通过hadoopfs-ls/users/ubuntu/使用ApacheSparkScalaAPI列出目录中的所有文件？来自给定的firstexample，Spark上下文似乎只能通过类似的方式单独访问文件:valfile=spark.textFile("hdfs://target_load_file.txt")在我的问题中，我事先不知道HDFS文件夹中文件的数量和名称。看着sparkcontextdocs但找不到这种功能。最佳答案您可以使用

Hadoop scala section code spark apache-spark

scala - scala 上的 hadoop 有哪些选项

我们正在启动一个基于大数据的分析项目，我们正在考虑采用scala(类型安全堆栈)。我想知道可用于执行hadoop、mapreduce程序的各种scalaAPI/项目。最佳答案一定要检查Scalding.作为用户和偶尔的贡献者，我发现它是一个非常有用的工具。ScaldingAPI也意味着与标准Scala集合API非常兼容。就像你可以在普通集合上调用flatMap、map或groupBy一样，你也可以在scaldingPipes上做同样的事情，你可以把它想象成一个分布式元组列表。还有一个类型化的API版本，它提供更强的类型安全保证。

scala hadoop section API 贡献者 mapreduce jvm-languages

scala - Spark Scala 列出目录中的文件夹

我想使用Scala/Spark列出hdfs目录中的所有文件夹。在Hadoop中，我可以使用以下命令执行此操作:hadoopfs-lshdfs://sandbox.hortonworks.com/demo/我试过:valconf=newConfiguration()valfs=FileSystem.get(newURI("hdfs://sandbox.hortonworks.com/"),conf)valpath=newPath("hdfs://sandbox.hortonworks.com/demo/")valfiles=fs.listFiles(path,false)但他似乎没有查看

scala Spark section code hdfs hadoop apache-spark

scala - 如何为每个分区具有相同数量元素的大小相同的分区的 Spark RDD 定义自定义分区程序？

我是Spark的新手。我有一个很大的元素[RDD]数据集，我想将它分成两个大小完全相等的分区，以保持元素的顺序。我尝试使用RangePartitioner之类的vardata=partitionedFile.partitionBy(newRangePartitioner(2,partitionedFile))这不会给出令人满意的结果，因为它粗略地划分但不完全相等，以保持元素的顺序。例如如果有64个元素，我们使用Rangepartitioner，然后分为31个元素和33个元素。我需要一个分区器，这样我就可以在一半中准确地获得前32个元素，而另一半包含第二组32个元素。你能帮我建议一下如何

自定何为 code section scala hadoop apache-spark

scala - 为什么 spark-shell 因 NullPointerException 而失败？

我尝试在Windows10上执行spark-shell，但每次运行时都会出现此错误。我使用了最新版本和spark-1.5.0-bin-hadoop2.4版本。15/09/2218:46:24WARNConnection:BoneCPspecifiedbutnotpresentinCLASSPATH(oroneofdependencies)15/09/2218:46:24WARNConnection:BoneCPspecifiedbutnotpresentinCLASSPATH(oroneofdependencies)15/09/2218:46:27WARNObjectStore:Ver

NullPointerException spark-shell apache SparkILoop spark scala hadoop apache-spark

scala - spark中的RDD是什么

定义说:RDDisimmutabledistributedcollectionofobjects我不太明白这是什么意思。它像存储在硬盘上的数据(分区对象)吗？如果是这样，那么RDD为什么可以有用户定义的类(例如java、scala或python)来自此链接:https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch03.html它提到:UserscreateRDDsintwoways:byloadinganexternaldataset,orbydistributingacollectio

scala spark section blockquote https hadoop apache-spark rdd

scala - 通过 key 写入多个输出 Spark - 一个 Spark 作业

如何在单个作业中使用Spark写入依赖于key的多个输出。相关:WritetomultipleoutputsbykeyScaldingHadoop,oneMapReduceJob例如sc.makeRDD(Seq((1,"a"),(1,"b"),(2,"c"))).writeAsMultiple(prefix,compressionCodecOption)将确保catprefix/1是ab和catprefix/2会是c编辑:我最近添加了一个新答案，其中包括完整导入、皮条客和压缩编解码器，请参阅https://stackoverflow.com/a/46118044/1586965，除了较

Spark scala code 34 people hadoop output hdfs apache-spark

scala - Spark - 将 CSV 文件加载为 DataFrame？

我想在spark中读取CSV并将其转换为DataFrame并使用df.registerTempTable("table_name")将其存储在HDFS中我试过:scala>valdf=sqlContext.load("hdfs:///csv/file/dir/file.csv")我得到的错误:java.lang.RuntimeException:hdfs:///csv/file/dir/file.csvisnotaParquetfile.expectedmagicnumberattail[80,65,82,49]butfound[49,59,54,10]atparquet.hadoop

DataFrame scala collection parallel apache-spark hadoop apache-spark-sql hdfs

149 150 151152153 154 155