草庐IT

language-scala

全部标签

scala - Scalding 和 Hadoop 与 sbt-assembly 的依赖关系问题

我正在尝试使用sbt构建一个简单的hadoop作业,我正在尝试运行它以尝试在AmazonEMR上运行它。但是,当我运行sbtassembly时,出现以下错误:[error](*:assembly)deduplicate:differentfilecontentsfoundinthefollowing:[error]/Users/trenthauck/.ivy2/cache/org.mortbay.jetty/jsp-2.1/jars/jsp-2.1-6.1.14.jar:org/apache/jasper/compiler/Node$ChildInfo.class[error]/Use

scala - spark 中的自定义输入阅读器

我是Spark的新手,想将页面记录从维基百科转储加载到RDD中。我尝试使用hadoop流中提供的记录读取器,但不知道如何使用它。谁能帮我用下面的代码创建一个带有页面记录的漂亮RDD?importorg.apache.hadoop.io.Textimportorg.apache.hadoop.streaming.StreamXmlRecordReaderimportorg.apache.hadoop.mapred.JobConfimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextobjectWikiTest

scala - 为什么 Scala 需要重复的构造函数? (java.lang.NoSuchMethodException)

我在Hadoop作业中收到此错误。java.lang.NoSuchMethodException:..()在大多数Scala代码中,你会在编译时得到它。但是由于这个作业是在运行时调用的,所以我没有在编译时捕获它。我认为默认参数会导致创建具有两个签名的构造函数,一个接受一个参数。classBasicDynamicBlocker(args:Args,evaluation:Boolean=false)extendsJob(args)withHiveAccess{//INEEDEDTHISTOO:defthis(args:Args)={this(args,false)}...我学到了我需要使用

scala - 将数据框转换为 spark scala 中的配置单元表

我正在尝试将数据框转换为sparkScala中的配置单元表。我已经从XML文件中读入了数据框。它使用SQL上下文来执行此操作。我想将此数据框转换为配置单元表。我收到此错误:"WARNHiveContext$$anon$1:Couldnotpersistdatabase_1.test_tableinaHivecompatibleway.PersistingitintoHivemetastoreinSparkSQLspecificformat."objectspark_conversion{defmain(args:Array[String]):Unit={if(args.length")

scala - 在 Spark JDBC 读取方法中使用谓词

我正在将数据从sqlserver拉到hdfs。这是我的片段,valpredicates=Array[String]("int_id=500000&&int_id我的IntellijIDE一直这么说"Typemismatch,expectedBooleanorLongorDoubleorString,Actual:Array[String]"在谓词中。不知道这有什么问题。谁能看出这是怎么回事?另外,我如何在这里使用提取大小?谢谢。 最佳答案 option方法只接受Boolean、Long、Double或Strings。要将predic

java - 从 Scala(或 Java)访问 HBase 的替代方案

谁能推荐好的解决方案(框架)来访问HBase在Hadoop来自Scala的集群(或Java)申请?现在我要搬进了scalding方向。我获得的原型(prototype)允许我将scalding库与Maven结合起来并将scalding作业JAR与“库”代码包分开。这反过来又允许我从外部集群运行基于Scalding的Hadoop作业,每个作业的开销最小(“库”代码仅在更改时(很少需要)发布到集群“分布式缓存”,因此我可以快速加载作业代码).现在我实际上开始使用HBase本身,我发现scalding很好,但它不是HBase的“原生”。是的,有类似hbase-scalding的东西但无论如何

scala - 在 IntelliJ Idea 中运行 Apache Spark 示例应用程序

我正在尝试在Netbeans中运行SparkPi.scala示例程序。不幸的是,我对Spark很陌生,未能成功执行它。我的偏好是只在Netbeans中工作并从那里执行。我知道spark还允许从spark控制台执行-但是我不想采用这种方法。这是我的build.sbt文件内容:name:="SBTScalaSparkPi"version:="1.0"scalaVersion:="2.10.6"libraryDependencies+="org.apache.spark"%%"spark-core"%"1.6.1"这是我的plugins.sbt文件内容:logLevel:=Level.War

scala - Spark & Scala - 无法从 RDD 中过滤空值

我试图从RDD中过滤空值但失败了。这是我的代码:valhBaseRDD=sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result])valraw_hbaserdd=hBaseRDD.map{kv=>kv._2}valRatings=raw_hbaseRDD.map{result=>valx=Bytes.toString(result.ge

scala - 使用scala将Spark处理后的结果转储到HDFS

在使用spark处理数据后,我对找到将数据保存到HDFS中的正确方法感到有点困惑。这就是我想要做的。我正在计算数字字段的最小值、最大值和SD。我的输入文件有数百万行,但输出只有大约15-20个字段。因此,输出是每个字段的单个值(标量)。例如:我将FIELD1的所有行加载到一个RDD中,最后,我将获得FIELD1的3个单值(MIN、MAX、SD)。我将这三个值连接成临时字符串。最后,我将有15到20行,包含4列,格式如下FIELD_NAME_1MINMAXSDFIELD_NAME_2MINMAXSD这是一段代码://createrddvaldata=sc.textFile("hdfs:/

scala - 超出物理限制运行的 Spark 容器

我一直在寻找以下问题的解决方案。我使用的是Scala2.11.8和Spark2.1.0。Applicationapplication_1489191400413_3294failed1timesduetoAMContainerforappattempt_1489191400413_3294_000001exitedwithexitCode:-104Formoredetailedoutput,checkapplicationtrackingpage:http://ip-172-31-17-35.us-west-2.compute.internal:8088/cluster/app/app