草庐IT

scala-cats

全部标签

scala - SBT 找不到 hadoop-aws 3.1.1

build.sbt:(片段)valhadoop_aws="org.apache.hadoop"%"hadoop-aws"%"3.1.1"libraryDependencies+=hadoop_aws但是,当尝试sbtupdate时:>update[info]Updating...[warn]modulenotfound:org.apache.hadoop#hadoop-aws;3.1.1[warn]====local:tried[warn]====local-preloaded-ivy:tried[warn]====local-preloaded:tried[warn]====publ

java - spark提交抛出错误java.lang.ClassNotFoundException : scala. runtime.java8.JFunction2$mcIII$sp

我写了一个字数统计代码,但是当我尝试使用下面的命令在Windows中从CMD运行它时,它抛出了一个异常。spark-submit--classcom.sample.WordCount--masterlocalfile:///E:/WordCountSample/target/WordCountSample-0.0.1-SNAPSHOT.jarfile:///C:/Users/siddh/OneDrive/Desktop/sample.txtpom.xml4.0.0SparkSampleInScalaWordCountSample0.0.1-SNAPSHOTjarWordCountSam

scala - 更改 Spark 的 Hadoop 版本

如何在不提交jar和定义特定Hadoop二进制文件的情况下为Spark应用程序设置Hadoop版本?这有可能吗?我只是不太确定在提交Spark应用程序时如何更改Hadoop版本。这样的东西是行不通的:valsparkSession=SparkSession.builder.master("local[*]").appName("SparkJobHDFSApp").getOrCreate()sparkSession.sparkContext.hadoopConfiguration.set("hadoop.common.configuration.version","2.7.4")

scala - Scalding 示例 WordCount 本地模式

我正在尝试运行Scalding示例字数统计示例。我已按照此github链接执行步骤:-https://github.com/twitter/scalding/wiki/Getting-Started但是我遇到了ClassNotFoundException。下面是我的StackTrace:-[cloudera@localhostscalding-develop]$**sudoscripts/scald.rb--localWordCount--inputinput.txt--output./someOutputFile.tsv**cannotfind/root/.sbt/boot/scal

scala - 从 Scala 中的配置单元表创建数据框时无法将模式名称作为输入

我正在尝试从clickstream_db架构中存在的现有配置单元表创建数据框。valganulardataframe=hc.table("clickstream_db.granulartable");报错:org.apache.spark.sql.catalyst.analysis.NoSuchTableExceptionatorg.apache.spark.sql.hive.client.ClientInterface$$anonfun$getTable$1.apply(ClientInterface.scala:112)atorg.apache.spark.sql.hive.cli

scala - 用于 Spark 集成测试的 Hive 配置

我正在寻找一种方法来配置Hive以进行SparkSQL集成测试,以便将表写入临时目录或测试根目录下的某个位置。我的调查表明这需要同时设置fs.defaultFS和hive.metastore.warehouse.dir之前HiveContext被build。只需设置后者,如本answer中所述不适用于Spark1.6.1。valsqlc=newHiveContext(sparkContext)sqlc.setConf("hive.metastore.warehouse.dir",hiveWarehouseDir)表元数据位于正确的位置,但写入的文件位于/user/hive/wareho

scala - Spark Hadoop 广播失败

运行spark-submit作业并收到“无法获取broadcast_58_piece0...”错误。我真的不确定我做错了什么。我是否过度使用了UDF?功能太复杂?作为我的目标的总结,我正在解析pdf中的文本,这些文本作为base64编码的字符串存储在JSON对象中。我正在使用ApacheTika获取文本,并尝试大量使用数据帧来简化操作。我写了一段代码,通过tika将文本提取作为“主”之外的一个函数在数据上作为RDD运行,并且运行完美。但是,当我尝试将提取作为数据帧上的UDF引入main时,它会以各种不同的方式出现问题。在我到达这里之前,我实际上是在尝试将最终数据框编写为:valid.t

scala - Spark(Scala)从驱动程序写入(和读取)本地文件系统

第一个问题:我有一个带有hadoop的2节点虚拟集群。我有一个运行Spark作业的jar。此jar接受作为cli参数:commands.txt文件的路径,该文件告诉jar运行哪些命令。我使用spark-submit运行作业,我注意到我的从节点没有运行,因为它找不到主节点本地的commands.txt文件。这是我用来运行它的命令:./spark-1.6.1-bin-hadoop2.6/bin/spark-submit--classuniv.bigdata.course.MainRunner--masteryarn\--deploy-modecluster--executor-memory

scala - 将 hdfs 文件加载到 spark 上下文中

我是spark/scala的新手,需要从hdfs加载一个文件到spark。我在hdfs(/newhdfs/abc.txt)中有一个文件,我可以使用hdfsdfs-cat/newhdfs/abc.txt/查看我的文件内容p>我按照以下顺序将文件加载到spark上下文中spark-shell#Itenteredintoscalaconsolewindowscala>importorg.apache.spark._;//Line1scala>valconf=newSparkConf().setMaster("local[*]");scala>valsc=newSparkContext(con

scala - 从 HDFS 读取文件并将内容分配给字符串

在Scala中,如何读取HDFS中的文件并将内容分配给变量。我知道如何读取文件并且能够打印它。但是如果我尝试将内容分配给一个字符串,它将输出作为Unit()。以下是我尝试过的代码。valdfs=org.apache.hadoop.fs.FileSystem.get(config);valsnapshot_file="/path/to/file/test.txt"valstream=dfs.open(newPath(snapshot_file))defreadLines=Stream.cons(stream.readLine,Stream.continually(stream.readL