scala-cats

scala - 如何在单个文件中执行多个 SQL 查询的 hql 文件？

我有一个hql文件，其中有很多配置单元查询，我想使用SparkSQL执行整个文件。这是我试过的。valsqlContext=neworg.apache.spark.sql.hive.HiveContext(sc)通常我们以这种方式执行单个查询:sqlContext.sql("SELECT*fromtable")但是，当我们有包含数百个查询的hql文件时，我通常会这样做。importscala.io.Sourcevalfilename="/path/to/file/filename.hql"for(line但是，我收到一条错误消息:NoViableAltException这是文件的顶部。

何在 scala string code apache hadoop apache-spark hive apache-spark-sql

scala - 如果我有身份验证详细信息，如何使用 spark 编程 API 写入 HDFS？

我需要写入外部HDFS集群，其身份验证详细信息可用于简单例份验证和kerberos身份验证。为了简单起见，假设我们正在处理简单的身份验证。这是我的:外部HDFS集群连接详细信息(主机、端口)身份验证详细信息(简单例份验证的用户)HDFS需要写入文件的位置(hdfs://host:port/loc)此外，其他细节，如格式等。请注意SPARK用户与为HDFS身份验证指定的用户不同。现在，使用spark编程API，这就是我想要做的:valhadoopConf=newConfiguration()hadoopConf.set("fs.defaultFS",fileSystemPath)hado

scala spark hadoop apache java apache-spark authentication hdfs

scala - Scalding 和 Hadoop 与 sbt-assembly 的依赖关系问题

我正在尝试使用sbt构建一个简单的hadoop作业，我正在尝试运行它以尝试在AmazonEMR上运行它。但是，当我运行sbtassembly时，出现以下错误:[error](*:assembly)deduplicate:differentfilecontentsfoundinthefollowing:[error]/Users/trenthauck/.ivy2/cache/org.mortbay.jetty/jsp-2.1/jars/jsp-2.1-6.1.14.jar:org/apache/jasper/compiler/Node$ChildInfo.class[error]/Use

sbt-assembly Scalding 34 MergeStrategy code scala hadoop sbt

scala - spark 中的自定义输入阅读器

我是Spark的新手，想将页面记录从维基百科转储加载到RDD中。我尝试使用hadoop流中提供的记录读取器，但不知道如何使用它。谁能帮我用下面的代码创建一个带有页面记录的漂亮RDD？importorg.apache.hadoop.io.Textimportorg.apache.hadoop.streaming.StreamXmlRecordReaderimportorg.apache.hadoop.mapred.JobConfimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextobjectWikiTest

自定阅读器 StreamXmlRecordReader apache hadoop scala apache-spark hadoop-streaming

scala - 为什么 Scala 需要重复的构造函数？ (java.lang.NoSuchMethodException)

我在Hadoop作业中收到此错误。java.lang.NoSuchMethodException:..()在大多数Scala代码中，你会在编译时得到它。但是由于这个作业是在运行时调用的，所以我没有在编译时捕获它。我认为默认参数会导致创建具有两个签名的构造函数，一个接受一个参数。classBasicDynamicBlocker(args:Args,evaluation:Boolean=false)extendsJob(args)withHiveAccess{//INEEDEDTHISTOO:defthis(args:Args)={this(args,false)}...我学到了我需要使用

NoSuchMethodException scala code method section hadoop

scala - 将数据框转换为 spark scala 中的配置单元表

我正在尝试将数据框转换为sparkScala中的配置单元表。我已经从XML文件中读入了数据框。它使用SQL上下文来执行此操作。我想将此数据框转换为配置单元表。我收到此错误:"WARNHiveContext$$anon$1:Couldnotpersistdatabase_1.test_tableinaHivecompatibleway.PersistingitintoHivemetastoreinSparkSQLspecificformat."objectspark_conversion{defmain(args:Array[String]):Unit={if(args.length")

配置单 scala 34 section spark hadoop apache-spark dataframe hive

scala - 在 Spark JDBC 读取方法中使用谓词

我正在将数据从sqlserver拉到hdfs。这是我的片段，valpredicates=Array[String]("int_id=500000&&int_id我的IntellijIDE一直这么说"Typemismatch,expectedBooleanorLongorDoubleorString,Actual:Array[String]"在谓词中。不知道这有什么问题。谁能看出这是怎么回事？另外，我如何在这里使用提取大小？谢谢。最佳答案 option方法只接受Boolean、Long、Double或Strings。要将predic

scala Spark code 34 predicates hadoop apache-spark intellij-idea jdbc

java - 从 Scala(或 Java)访问 HBase 的替代方案

谁能推荐好的解决方案(框架)来访问HBase在Hadoop来自Scala的集群(或Java)申请？现在我要搬进了scalding方向。我获得的原型(prototype)允许我将scalding库与Maven结合起来并将scalding作业JAR与“库”代码包分开。这反过来又允许我从外部集群运行基于Scalding的Hadoop作业，每个作业的开销最小(“库”代码仅在更改时(很少需要)发布到集群“分布式缓存”，因此我可以快速加载作业代码).现在我实际上开始使用HBase本身，我发现scalding很好，但它不是HBase的“原生”。是的，有类似hbase-scalding的东西但无论如何

Scala HBase noreferrer noopener nofollow java hadoop scalding

scala - 在 IntelliJ Idea 中运行 Apache Spark 示例应用程序

我正在尝试在Netbeans中运行SparkPi.scala示例程序。不幸的是，我对Spark很陌生，未能成功执行它。我的偏好是只在Netbeans中工作并从那里执行。我知道spark还允许从spark控制台执行-但是我不想采用这种方法。这是我的build.sbt文件内容:name:="SBTScalaSparkPi"version:="1.0"scalaVersion:="2.10.6"libraryDependencies+="org.apache.spark"%%"spark-core"%"1.6.1"这是我的plugins.sbt文件内容:logLevel:=Level.War

中运 IntelliJ spark SparkContext code scala hadoop apache-spark

scala - Spark & Scala - 无法从 RDD 中过滤空值

我试图从RDD中过滤空值但失败了。这是我的代码:valhBaseRDD=sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result])valraw_hbaserdd=hBaseRDD.map{kv=>kv._2}valRatings=raw_hbaseRDD.map{result=>valx=Bytes.toString(result.ge

amp scala section Bytes null hadoop apache-spark bigdata

142 143 144145146 147 148