language-scala

scala - Scalding 和 Hadoop 与 sbt-assembly 的依赖关系问题

我正在尝试使用sbt构建一个简单的hadoop作业，我正在尝试运行它以尝试在AmazonEMR上运行它。但是，当我运行sbtassembly时，出现以下错误:[error](*:assembly)deduplicate:differentfilecontentsfoundinthefollowing:[error]/Users/trenthauck/.ivy2/cache/org.mortbay.jetty/jsp-2.1/jars/jsp-2.1-6.1.14.jar:org/apache/jasper/compiler/Node$ChildInfo.class[error]/Use

sbt-assembly Scalding 34 MergeStrategy code scala hadoop sbt

scala - spark 中的自定义输入阅读器

我是Spark的新手，想将页面记录从维基百科转储加载到RDD中。我尝试使用hadoop流中提供的记录读取器，但不知道如何使用它。谁能帮我用下面的代码创建一个带有页面记录的漂亮RDD？importorg.apache.hadoop.io.Textimportorg.apache.hadoop.streaming.StreamXmlRecordReaderimportorg.apache.hadoop.mapred.JobConfimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextobjectWikiTest

自定阅读器 StreamXmlRecordReader apache hadoop scala apache-spark hadoop-streaming

scala - 为什么 Scala 需要重复的构造函数？ (java.lang.NoSuchMethodException)

我在Hadoop作业中收到此错误。java.lang.NoSuchMethodException:..()在大多数Scala代码中，你会在编译时得到它。但是由于这个作业是在运行时调用的，所以我没有在编译时捕获它。我认为默认参数会导致创建具有两个签名的构造函数，一个接受一个参数。classBasicDynamicBlocker(args:Args,evaluation:Boolean=false)extendsJob(args)withHiveAccess{//INEEDEDTHISTOO:defthis(args:Args)={this(args,false)}...我学到了我需要使用

NoSuchMethodException scala code method section hadoop

scala - 将数据框转换为 spark scala 中的配置单元表

我正在尝试将数据框转换为sparkScala中的配置单元表。我已经从XML文件中读入了数据框。它使用SQL上下文来执行此操作。我想将此数据框转换为配置单元表。我收到此错误:"WARNHiveContext$$anon$1:Couldnotpersistdatabase_1.test_tableinaHivecompatibleway.PersistingitintoHivemetastoreinSparkSQLspecificformat."objectspark_conversion{defmain(args:Array[String]):Unit={if(args.length")

配置单 scala 34 section spark hadoop apache-spark dataframe hive

scala - 在 Spark JDBC 读取方法中使用谓词

我正在将数据从sqlserver拉到hdfs。这是我的片段，valpredicates=Array[String]("int_id=500000&&int_id我的IntellijIDE一直这么说"Typemismatch,expectedBooleanorLongorDoubleorString,Actual:Array[String]"在谓词中。不知道这有什么问题。谁能看出这是怎么回事？另外，我如何在这里使用提取大小？谢谢。最佳答案 option方法只接受Boolean、Long、Double或Strings。要将predic

scala Spark code 34 predicates hadoop apache-spark intellij-idea jdbc

java - 从 Scala(或 Java)访问 HBase 的替代方案

谁能推荐好的解决方案(框架)来访问HBase在Hadoop来自Scala的集群(或Java)申请？现在我要搬进了scalding方向。我获得的原型(prototype)允许我将scalding库与Maven结合起来并将scalding作业JAR与“库”代码包分开。这反过来又允许我从外部集群运行基于Scalding的Hadoop作业，每个作业的开销最小(“库”代码仅在更改时(很少需要)发布到集群“分布式缓存”，因此我可以快速加载作业代码).现在我实际上开始使用HBase本身，我发现scalding很好，但它不是HBase的“原生”。是的，有类似hbase-scalding的东西但无论如何

Scala HBase noreferrer noopener nofollow java hadoop scalding

scala - 在 IntelliJ Idea 中运行 Apache Spark 示例应用程序

我正在尝试在Netbeans中运行SparkPi.scala示例程序。不幸的是，我对Spark很陌生，未能成功执行它。我的偏好是只在Netbeans中工作并从那里执行。我知道spark还允许从spark控制台执行-但是我不想采用这种方法。这是我的build.sbt文件内容:name:="SBTScalaSparkPi"version:="1.0"scalaVersion:="2.10.6"libraryDependencies+="org.apache.spark"%%"spark-core"%"1.6.1"这是我的plugins.sbt文件内容:logLevel:=Level.War

中运 IntelliJ spark SparkContext code scala hadoop apache-spark

scala - Spark & Scala - 无法从 RDD 中过滤空值

我试图从RDD中过滤空值但失败了。这是我的代码:valhBaseRDD=sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result])valraw_hbaserdd=hBaseRDD.map{kv=>kv._2}valRatings=raw_hbaseRDD.map{result=>valx=Bytes.toString(result.ge

amp scala section Bytes null hadoop apache-spark bigdata

scala - 使用scala将Spark处理后的结果转储到HDFS

在使用spark处理数据后，我对找到将数据保存到HDFS中的正确方法感到有点困惑。这就是我想要做的。我正在计算数字字段的最小值、最大值和SD。我的输入文件有数百万行，但输出只有大约15-20个字段。因此，输出是每个字段的单个值(标量)。例如:我将FIELD1的所有行加载到一个RDD中，最后，我将获得FIELD1的3个单值(MIN、MAX、SD)。我将这三个值连接成临时字符串。最后，我将有15到20行，包含4列，格式如下FIELD_NAME_1MINMAXSDFIELD_NAME_2MINMAXSD这是一段代码://createrddvaldata=sc.textFile("hdfs:/

scala Spark code section saveAsTextFile hadoop hdfs apache-spark

scala - 超出物理限制运行的 Spark 容器

我一直在寻找以下问题的解决方案。我使用的是Scala2.11.8和Spark2.1.0。Applicationapplication_1489191400413_3294failed1timesduetoAMContainerforappattempt_1489191400413_3294_000001exitedwithexitCode:-104Formoredetailedoutput,checkapplicationtrackingpage:http://ip-172-31-17-35.us-west-2.compute.internal:8088/cluster/app/app

容器 scala code 34 memory apache-spark hadoop hadoop-yarn

159 160 161162163 164 165