草庐IT

scala-cats

全部标签

scala - 找不到 Apache Spark Mongo-Hadoop 连接器类

所以我正在尝试运行这个示例https://github.com/plaa/mongo-spark/blob/master/src/main/scala/ScalaWordCount.scala但我一直收到这个错误Exceptioninthread"main"java.lang.NoClassDefFoundError:com/mongodb/hadoop/MongoInputFormatatScalaWordCount$.main(ScalaWordCount.scala:27)我不确定为什么很难找到类(class)。我用Maven构建了这个项目,它似乎构建得很好。/usr/local

scala - 记录 Hadoop 的文件系统操作

我手头有问题,这需要我监视正在访问的一组文件。这些文件既可以从Hadoop文件系统访问,也可以从Linux机器上的文件系统访问。我需要持续监控和集成来自两个文件系统的日志,以获取一组特定的少数文件。关于如何做到这一点有什么想法吗? 最佳答案 从ApacheHadoop2.6.0(或对于ClouderaCDH用户,5.2.0及更高版本)开始,HDFS添加了类似inotify的功能。JIRA为此携带adesigndocument详细说明了HDFS支持这种需求的实现形式。来自同一实现的测试用例进一步说明了如何使用该功能:TestDFSIn

scala - 如何在 Apache ignite 中缓存 Dataframe

我正在编写代码以使用sparkSQLContextJDBC连接来缓存RDBMS数据。创建Dataframe后,我想使用apacheignite缓存该reusltset,从而使其他应用程序使用结果集。这是代码片段。objecttest{defmain(args:Array[String]){valconfiguration=newConfiguration()valconfig="src/main/scala/config.xml"valsparkConf=newSparkConf().setAppName("test").setMaster("local[*]")valsc=newSp

scala - 尝试在 Windows 中使用 sc.textFile 加载文件时出错

我是hadoop的新手,我正在尝试使用sc.textFile命令上传本地文件valdata=sc.textFile("file:///D:\\test.txt")在此之后我尝试对这些数据做一些操作然后我得到错误java.lang.IllegalArgumentException:java.net.URISyntaxException:RelativepathinabsoluteURI:D:test.txtatorg.apache.hadoop.fs.Path.initialize(Path.java:206)atorg.apache.hadoop.fs.Path.(Path.java:

scala - 如何使用 Scala 计算 Hbase 表上的所有行

我们可以计算所有行,使用hbaseshell和这个命令:count'table_name',INTERVAL=>1或者只是简单的count'table_name。但是如何使用Scala编程做到这一点? 最佳答案 虽然我已经完成了Hbase的Java客户端,但我研究并发现了以下内容..Java方式代码片段:您可以使用KeyOnlyFilter()只获取行的键。然后像下面这样循环..for(Resultrs=scanner.next();rs!=null;rs=scanner.next()){number++;}像上面一样,您可以使用下

java - HBase 扫描时间范围在 Scala 中不起作用

我编写scala代码来根据时间范围检索数据。这是我的代码:objectHbase_Scan_TimeRange{defmain(args:Array[String]):Unit={//===BasicHbase(NonDeprecated)===StartLogger.getLogger(this.getClass)Logger.getLogger("org").setLevel(Level.ERROR)BasicConfigurator.configure()valconf=HBaseConfiguration.create()valconnection=ConnectionFact

java - Scala - 如何返回这种 RDD 类型

我尝试使返回RDD的方法引用this,但失败了,因为返回需要参数。根据API(Java),这是我的代码:defHBaseToRDD(_HBaseConfiguration:HBaseConfiguration,_sc:SparkContext):RDD[(K,V)]={valHBaseRDD=_sc.newAPIHadoopRDD(_HBaseConfiguration,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoo

scala - 使用 Spark 中的动态列将 RDD 数据写入 CSV - Scala

我正在从HDFS目录读取多个文件,并且对于每个文件,生成的数据使用以下方式打印:frequencies.foreach(x=>println(x._1+":"+x._2))打印的数据是(对于File1.txt):'text':45'data':100'push':150其他文件的key可能不同,例如(File2.txt):'data':45'lea':100'jmp':150key不一定在所有文件中都相同。我希望将所有文件数据写入以下格式的.csv文件:FilenametextdatapushleajmpFile1.txt4510015000File2.txt0450100150...

scala - 卡夫卡+ Spark 流: Multi topic processing in single job

Kafka中有40个主题和编写的SparkStreaming作业,每个主题处理5个表。sparkstreaming作业的唯一目标是读取5个kafka主题并将其写入相应的5个hdfs路径。大多数时候它工作正常,但有时它会将主题1数据写入其他hdfs路径。下面的代码试图归档一个sparkstreaming作业来处理5个主题并将其写入相应的hdfs,但是这个将主题1数据写入HDFS5而不是HDFS1。请提供您的建议:importjava.text.SimpleDateFormatimportorg.apache.kafka.common.serialization.StringDeseria

scala - 在 HDFS 上预组合表并在 Spark 中读取零混洗

上下文我有两个表,作为我的spark作业的一部分,我正在加入/联合分组,这在我每次运行作业时都会导致大量洗牌。我想通过一次存储联合分组数据来分摊所有作业的成本,并将已经联合分组的数据用作我的常规Spark运行的一部分以避免混洗。为了尝试实现这一点,我在HDFS中以Parquet格式存储了一些数据。我正在使用Parquet重复字段来实现以下架构(date,[aRecords],[bRecords])其中[aRecords]表示aRecord数组。我还使用通常的write.partitionBy($"date")在HDFS上按日期对数据进行分区。在这种情况下,aRecords和bRecor