scala-tools_草庐IT

scala - 'new HiveContext' 需要 X11 显示？ com.trend.iwss.jscan?

Spark1.6.2(yarn大师)包名:com.example.spark.Main基本的SparkSQL代码valconf=newSparkConf()conf.setAppName("SparkSQLw/Hive")valsc=newSparkContext(conf)valhiveContext=newHiveContext(sc)importhiveContext.implicits._//valrdd=valdf=rdd.toDF()df.write.saveAsTable("example")还有堆栈跟踪...NoX11DISPLAYvariablewasset,butt

scala - Scalding:解析带 header 的逗号分隔数据

我有以下格式的数据:"header1","header2","header3",..."value11","value12","value13",..."value21","value22","value23",.......在Scalding中解析它的最佳方法是什么？我总共有50多个专栏，但我只对其中的一些感兴趣。我尝试使用Csv("file")导入它，但这不起作用。想到的唯一解决方案是使用TextLine手动解析它并忽略偏移量==0的行。但我相信一定有更好的解决方案。最佳答案最后我通过如下手动解析每一行解决了它:deftip

Scalding header 34 section value scala parsing hadoop mapreduce

scala - 如何衡量一个scala烫伤程序的运行时间？

我有一个简单的scalding程序来转换我在本地模式下使用com.twitter.scalding.Tool执行的一些数据。valstart=System.nanoTimevalinputPaths=args("input").split(",").toListvalpipe=Tsv(inputPaths(0))//standardpipeoperationsonmydatalike.filter('myField),etc..write(Tsv(args("output")))println("runningtime:"+(System.nanoTime-start)/1e6+"ms

scala 烫伤 section 34 stackoverflow hadoop scalding

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表，但是当我在Scala中执行相同的实现时，会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

MetaException Spark-Scala strong section hive scala hadoop hbase apache-spark pyspark

scala - 使用 HBase 的 Spark 作业失败

我运行的任何涉及HBase访问的Spark作业都会导致以下错误。我自己的工作是在Scala中，但提供的python示例以相同的方式结束。集群是Cloudera，运行CDH5.4.4。相同的作业在使用CDH5.3.1的不同集群上运行良好。非常感谢任何帮助!...15/08/1521:46:30WARNTableInputFormatBase:initializeTablecalledmultipletimes.Overwritingconnectionandtablereference;TableInputFormatBasewillnotclosetheseoldreferencesw

scala HBase TableInputFormatBase section java hadoop apache-spark cloudera

scala - 如何使用scala在apache spark中存储一个 Action 的结果

如何在apacheSparkScala的输出目录中存储从以下操作生成的结果:计数？valcountval=data.map((_,"")).reduceByKey((_+_)).count以下命令不起作用，因为计数未存储为RDD:countval.saveAsTextFile("OUTPUTLOCATION")有什么方法可以将countval存储到本地/hdfs位置？最佳答案 @szefuf说的是正确的，在count之后你有一个Long，你可以用任何你想要的方式保存它。如果您想使用.saveAsTextFile()将其保存为RDD

scala apache code section countval hadoop apache-spark

scala - 将文件从远程服务器上运行的 Apache Zeppelin 传输到 HDFS

我有一个在远程服务器上运行的ApacheZeppelin实例，我正在使用Scala通过Spark解释器与其通信。我想将存储在该服务器目录中的csv文件传输到也在远程服务器上的HDFS(Hadoop)。我无权访问服务器上的任何配置文件，我无法安装任何东西，我只能在Zeppelin中发出命令。我试过使用标准sc.textFile("file:///test.csv")语句，但它返回以下错误:org.apache.spark.SparkException:Jobabortedduetostagefailure:Task0instage19.0failed4times,mostrecentfa

Zeppelin Apache code section scala hadoop apache-spark hdfs apache-zeppelin

scala - SBT 找不到 hadoop-aws 3.1.1

build.sbt:(片段)valhadoop_aws="org.apache.hadoop"%"hadoop-aws"%"3.1.1"libraryDependencies+=hadoop_aws但是，当尝试sbtupdate时:>update[info]Updating...[warn]modulenotfound:org.apache.hadoop#hadoop-aws;3.1.1[warn]====local:tried[warn]====local-preloaded-ivy:tried[warn]====local-preloaded:tried[warn]====publ

hadoop-aws hadoop error scala sbt amazon-s3

java - spark提交抛出错误java.lang.ClassNotFoundException : scala. runtime.java8.JFunction2$mcIII$sp

我写了一个字数统计代码，但是当我尝试使用下面的命令在Windows中从CMD运行它时，它抛出了一个异常。spark-submit--classcom.sample.WordCount--masterlocalfile:///E:/WordCountSample/target/WordCountSample-0.0.1-SNAPSHOT.jarfile:///C:/Users/siddh/OneDrive/Desktop/sample.txtpom.xml4.0.0SparkSampleInScalaWordCountSample0.0.1-SNAPSHOTjarWordCountSam

java ClassNotFoundException gt lt SparkSubmit scala apache-spark hadoop

scala - 更改 Spark 的 Hadoop 版本

如何在不提交jar和定义特定Hadoop二进制文件的情况下为Spark应用程序设置Hadoop版本？这有可能吗？我只是不太确定在提交Spark应用程序时如何更改Hadoop版本。这样的东西是行不通的:valsparkSession=SparkSession.builder.master("local[*]").appName("SparkJobHDFSApp").getOrCreate()sparkSession.sparkContext.hadoopConfiguration.set("hadoop.common.configuration.version","2.7.4")

Hadoop scala section Spark apache-spark