草庐IT

scala-cats

全部标签

scala - 如何在单个文件中执行多个 SQL 查询的 hql 文件?

我有一个hql文件,其中有很多配置单元查询,我想使用SparkSQL执行整个文件。这是我试过的。valsqlContext=neworg.apache.spark.sql.hive.HiveContext(sc)通常我们以这种方式执行单个查询:sqlContext.sql("SELECT*fromtable")但是,当我们有包含数百个查询的hql文件时,我通常会这样做。importscala.io.Sourcevalfilename="/path/to/file/filename.hql"for(line但是,我收到一条错误消息:NoViableAltException这是文件的顶部。

scala - 如果我有身份验证详细信息,如何使用 spark 编程 API 写入 HDFS?

我需要写入外部HDFS集群,其身份验证详细信息可用于简单例份验证和kerberos身份验证。为了简单起见,假设我们正在处理简单的身份验证。这是我的:外部HDFS集群连接详细信息(主机、端口)身份验证详细信息(简单例份验证的用户)HDFS需要写入文件的位置(hdfs://host:port/loc)此外,其他细节,如格式等。请注意SPARK用户与为HDFS身份验证指定的用户不同。现在,使用spark编程API,这就是我想要做的:valhadoopConf=newConfiguration()hadoopConf.set("fs.defaultFS",fileSystemPath)hado

scala - Scalding 和 Hadoop 与 sbt-assembly 的依赖关系问题

我正在尝试使用sbt构建一个简单的hadoop作业,我正在尝试运行它以尝试在AmazonEMR上运行它。但是,当我运行sbtassembly时,出现以下错误:[error](*:assembly)deduplicate:differentfilecontentsfoundinthefollowing:[error]/Users/trenthauck/.ivy2/cache/org.mortbay.jetty/jsp-2.1/jars/jsp-2.1-6.1.14.jar:org/apache/jasper/compiler/Node$ChildInfo.class[error]/Use

scala - spark 中的自定义输入阅读器

我是Spark的新手,想将页面记录从维基百科转储加载到RDD中。我尝试使用hadoop流中提供的记录读取器,但不知道如何使用它。谁能帮我用下面的代码创建一个带有页面记录的漂亮RDD?importorg.apache.hadoop.io.Textimportorg.apache.hadoop.streaming.StreamXmlRecordReaderimportorg.apache.hadoop.mapred.JobConfimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextobjectWikiTest

scala - 为什么 Scala 需要重复的构造函数? (java.lang.NoSuchMethodException)

我在Hadoop作业中收到此错误。java.lang.NoSuchMethodException:..()在大多数Scala代码中,你会在编译时得到它。但是由于这个作业是在运行时调用的,所以我没有在编译时捕获它。我认为默认参数会导致创建具有两个签名的构造函数,一个接受一个参数。classBasicDynamicBlocker(args:Args,evaluation:Boolean=false)extendsJob(args)withHiveAccess{//INEEDEDTHISTOO:defthis(args:Args)={this(args,false)}...我学到了我需要使用

scala - 将数据框转换为 spark scala 中的配置单元表

我正在尝试将数据框转换为sparkScala中的配置单元表。我已经从XML文件中读入了数据框。它使用SQL上下文来执行此操作。我想将此数据框转换为配置单元表。我收到此错误:"WARNHiveContext$$anon$1:Couldnotpersistdatabase_1.test_tableinaHivecompatibleway.PersistingitintoHivemetastoreinSparkSQLspecificformat."objectspark_conversion{defmain(args:Array[String]):Unit={if(args.length")

scala - 在 Spark JDBC 读取方法中使用谓词

我正在将数据从sqlserver拉到hdfs。这是我的片段,valpredicates=Array[String]("int_id=500000&&int_id我的IntellijIDE一直这么说"Typemismatch,expectedBooleanorLongorDoubleorString,Actual:Array[String]"在谓词中。不知道这有什么问题。谁能看出这是怎么回事?另外,我如何在这里使用提取大小?谢谢。 最佳答案 option方法只接受Boolean、Long、Double或Strings。要将predic

java - 从 Scala(或 Java)访问 HBase 的替代方案

谁能推荐好的解决方案(框架)来访问HBase在Hadoop来自Scala的集群(或Java)申请?现在我要搬进了scalding方向。我获得的原型(prototype)允许我将scalding库与Maven结合起来并将scalding作业JAR与“库”代码包分开。这反过来又允许我从外部集群运行基于Scalding的Hadoop作业,每个作业的开销最小(“库”代码仅在更改时(很少需要)发布到集群“分布式缓存”,因此我可以快速加载作业代码).现在我实际上开始使用HBase本身,我发现scalding很好,但它不是HBase的“原生”。是的,有类似hbase-scalding的东西但无论如何

scala - 在 IntelliJ Idea 中运行 Apache Spark 示例应用程序

我正在尝试在Netbeans中运行SparkPi.scala示例程序。不幸的是,我对Spark很陌生,未能成功执行它。我的偏好是只在Netbeans中工作并从那里执行。我知道spark还允许从spark控制台执行-但是我不想采用这种方法。这是我的build.sbt文件内容:name:="SBTScalaSparkPi"version:="1.0"scalaVersion:="2.10.6"libraryDependencies+="org.apache.spark"%%"spark-core"%"1.6.1"这是我的plugins.sbt文件内容:logLevel:=Level.War

scala - Spark & Scala - 无法从 RDD 中过滤空值

我试图从RDD中过滤空值但失败了。这是我的代码:valhBaseRDD=sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result])valraw_hbaserdd=hBaseRDD.map{kv=>kv._2}valRatings=raw_hbaseRDD.map{result=>valx=Bytes.toString(result.ge