scala-cats

scala - 找不到 Apache Spark Mongo-Hadoop 连接器类

所以我正在尝试运行这个示例https://github.com/plaa/mongo-spark/blob/master/src/main/scala/ScalaWordCount.scala但我一直收到这个错误Exceptioninthread"main"java.lang.NoClassDefFoundError:com/mongodb/hadoop/MongoInputFormatatScalaWordCount$.main(ScalaWordCount.scala:27)我不确定为什么很难找到类(class)。我用Maven构建了这个项目，它似乎构建得很好。/usr/local

scala - 记录 Hadoop 的文件系统操作

我手头有问题，这需要我监视正在访问的一组文件。这些文件既可以从Hadoop文件系统访问，也可以从Linux机器上的文件系统访问。我需要持续监控和集成来自两个文件系统的日志，以获取一组特定的少数文件。关于如何做到这一点有什么想法吗？最佳答案从ApacheHadoop2.6.0(或对于ClouderaCDH用户，5.2.0及更高版本)开始，HDFS添加了类似inotify的功能。JIRA为此携带adesigndocument详细说明了HDFS支持这种需求的实现形式。来自同一实现的测试用例进一步说明了如何使用该功能:TestDFSIn

Hadoop scala section noreferrer noopener filesystems hdfs

scala - 如何在 Apache ignite 中缓存 Dataframe

我正在编写代码以使用sparkSQLContextJDBC连接来缓存RDBMS数据。创建Dataframe后，我想使用apacheignite缓存该reusltset，从而使其他应用程序使用结果集。这是代码片段。objecttest{defmain(args:Array[String]){valconfiguration=newConfiguration()valconfig="src/main/scala/config.xml"valsparkConf=newSparkConf().setAppName("test").setMaster("local[*]")valsc=newSp

何在 Dataframe section 34 code scala hadoop caching apache-spark ignite

scala - 尝试在 Windows 中使用 sc.textFile 加载文件时出错

我是hadoop的新手，我正在尝试使用sc.textFile命令上传本地文件valdata=sc.textFile("file:///D:\\test.txt")在此之后我尝试对这些数据做一些操作然后我得到错误java.lang.IllegalArgumentException:java.net.URISyntaxException:RelativepathinabsoluteURI:D:test.txtatorg.apache.hadoop.fs.Path.initialize(Path.java:206)atorg.apache.hadoop.fs.Path.(Path.java:

时出 textFile apache scala spark hadoop apache-spark

scala - 如何使用 Scala 计算 Hbase 表上的所有行

我们可以计算所有行，使用hbaseshell和这个命令:count'table_name',INTERVAL=>1或者只是简单的count'table_name。但是如何使用Scala编程做到这一点？最佳答案虽然我已经完成了Hbase的Java客户端，但我研究并发现了以下内容..Java方式代码片段:您可以使用KeyOnlyFilter()只获取行的键。然后像下面这样循环..for(Resultrs=scanner.next();rs!=null;rs=scanner.next()){number++;}像上面一样，您可以使用下

scala code strong section hadoop hbase nosql-aggregation nosql

java - HBase 扫描时间范围在 Scala 中不起作用

我编写scala代码来根据时间范围检索数据。这是我的代码:objectHbase_Scan_TimeRange{defmain(args:Array[String]):Unit={//===BasicHbase(NonDeprecated)===StartLogger.getLogger(this.getClass)Logger.getLogger("org").setLevel(Level.ERROR)BasicConfigurator.configure()valconf=HBaseConfiguration.create()valconnection=ConnectionFact

HBase Scala val 34 section java hadoop bigdata

java - Scala - 如何返回这种 RDD 类型

我尝试使返回RDD的方法引用this，但失败了，因为返回需要参数。根据API(Java)，这是我的代码:defHBaseToRDD(_HBaseConfiguration:HBaseConfiguration,_sc:SparkContext):RDD[(K,V)]={valHBaseRDD=_sc.newAPIHadoopRDD(_HBaseConfiguration,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoo

Scala java code HBaseConfiguration apache hadoop apache-spark bigdata

scala - 使用 Spark 中的动态列将 RDD 数据写入 CSV - Scala

我正在从HDFS目录读取多个文件，并且对于每个文件，生成的数据使用以下方式打印:frequencies.foreach(x=>println(x._1+":"+x._2))打印的数据是(对于File1.txt):'text':45'data':100'push':150其他文件的key可能不同，例如(File2.txt):'data':45'lea':100'jmp':150key不一定在所有文件中都相同。我希望将所有文件数据写入以下格式的.csv文件:FilenametextdatapushleajmpFile1.txt4510015000File2.txt0450100150...

scala Spark section 34 code csv hadoop apache-spark

scala - 卡夫卡+ Spark 流: Multi topic processing in single job

Kafka中有40个主题和编写的SparkStreaming作业，每个主题处理5个表。sparkstreaming作业的唯一目标是读取5个kafka主题并将其写入相应的5个hdfs路径。大多数时候它工作正常，但有时它会将主题1数据写入其他hdfs路径。下面的代码试图归档一个sparkstreaming作业来处理5个主题并将其写入相应的hdfs，但是这个将主题1数据写入HDFS5而不是HDFS1。请提供您的建议:importjava.text.SimpleDateFormatimportorg.apache.kafka.common.serialization.StringDeseria

卡夫 processing 34 kafka section scala hadoop apache-spark apache-kafka spark-streaming

scala - 在 HDFS 上预组合表并在 Spark 中读取零混洗

上下文我有两个表，作为我的spark作业的一部分，我正在加入/联合分组，这在我每次运行作业时都会导致大量洗牌。我想通过一次存储联合分组数据来分摊所有作业的成本，并将已经联合分组的数据用作我的常规Spark运行的一部分以避免混洗。为了尝试实现这一点，我在HDFS中以Parquet格式存储了一些数据。我正在使用Parquet重复字段来实现以下架构(date,[aRecords],[bRecords])其中[aRecords]表示aRecord数组。我还使用通常的write.partitionBy($"date")在HDFS上按日期对数据进行分区。在这种情况下，aRecords和bRecor

scala Spark aRecords bRecords 34 apache-spark hadoop apache-spark-sql

136 137 138139140 141 142