草庐IT

scala-cats

全部标签

hadoop - 使用 spark/scala,我使用 saveAsTextFile() 到 HDFS,但是 hiveql("select count(*) from...) return 0

我创建了如下外部表...hive-e"createexternaltabletemp_db.temp_table(achar(10),bint)PARTITIONEDBY(PART_DATEVARCHAR(10))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/work/temp_db/temp_table'"我在IntelliJIDEA中将saveAsTextFile()与scala一起使用,如下所示...itemsRdd.map(_.makeTsv).saveAsTextFile("hdfs://w

scala - 使用 hadoop IncompatibleClassChangeError 在 EC2 上运行 spark 应用程序失败

我有一个简单的spark应用程序,它使用spark-submit在我的笔记本电脑上运行正常。但是,当我在AmazonEC2集群上使用spark-submit运行它时出现此运行时错误:$/root/spark/bin/spark-submit--classapplication.Example--masterspark://ec2-54-227-170-20.compute-1.amazonaws.com:7077/root/example-assembly-0.1-SNAPSHOT.jarjava.lang.IncompatibleClassChangeError:Foundclass

scala - Spark 在计算大文件时崩溃

我在Scala中有一个程序可以读取CSV文件,向Dataframe添加一个新列并将结果保存为parquet文件。它在小文件(16/10/2010:03:37WARNscheduler.TaskSetManager:Losttask14.0instage4.0(TID886,10.0.0.10):java.io.EOFException:reachedendofstreamafterreading136445bytes;1245184bytesexpectedatorg.spark_project.guava.io.ByteStreams.readFully(ByteStreams.ja

scala - 我可以通过 spark-scala 程序运行 shell 脚本吗?

我正在用intelligi编写一个spark-scala程序,我的代码基本上是从oracle中获取表格并将它们作为文本文件存储在hdfsinsert_df.rdd.saveAsTextFile("hdfs://path")。我试过这种方法,但没有用valscript_sh="///samplepath/file_creation_script.sh".!但是我要对生成的文本文件进行一些转换,我为此编写了一个shell脚本。我不想分别运行sparkjar文件和.sh文件。请告诉我是否有任何方法可以通过程序调用shell脚本。 最佳答案

scala - 从 Spark 中的 Google 存储桶中读取文件

我正在尝试从谷歌存储桶中读取文件,尽管我可以通过在进入sparkshell时包含gcsjar来通过spark-shell读取它。通过spark-submit提交时抛出以下错误。Exceptioninthread"main"java.lang.NoSuchMethodError:com.google.common.base.Splitter.splitToList(Ljava/lang/CharSequence;)Ljava/util/List;atcom.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase$ParentTimest

scala - Spark/Scala - 从数据框中有条件地选择列

我有两个配置单元表A和B以及它们各自的数据帧df_a和df_bA+----+-----+-----------+|id|name|mobile1|+----+-----+-----------+|1|Matt|123456798|+----+-----+-----------+|2|John|123456798|+----+-----+-----------+|3|Lena||+----+-----+-----------+B+----+-----+-----------+|id|name|mobile2|+----+-----+-----------+|3|Lena|12345679

scala - 无法启动 spark-shell,因为它会在 hadoop 集群配置上产生错误,但是,在没有 hadoop 集群的情况下工作正常

当我删除hadoop集群设置文件夹时,我的spark-shell工作得很好,但是,如果我尝试使用hadoop集群设置文件夹,那么spark-shell会产生各种错误,例如“实例化'org.apache.spark时出错.sql.hive.HiveSessionState'inspark"即使我没有在任何地方配置配置单元。请注意,即使我尝试关闭hadoop和spark的所有集群,但即使是spark-shell也会产生以下错误: 最佳答案 运行:mkdir/user/$whoami/spark-warehouse然后运行:spark-s

scala - 无法导入带有 Scala 类 Connection* 的 HBase

我正在尝试从Hbase文档编译和运行scala示例http://hbase.apache.org/1.2/book.html#scala但我收到无法导入Connection和ConnectionFactory类的编译错误。我已经尝试了两个scala版本2.10.6和2.11.11,但在这两种情况下都失败了。简单的Scala代码:importorg.apache.hadoop.hbase.HBaseConfigurationimportorg.apache.hadoop.hbase.client.Connectionimportorg.apache.hadoop.hbase.client

scala - 使用 apache Ignite 共享 sparkRDD

我实现的是:valsparkConf=newSparkConf().setAppName(“SharedRDD”).setMaster(“local”)valsc=SparkContext.getOrCreate(sparkConf)valsparkRDD=sc.wholeTextFiles("sample.csv",10)这个RDD被IgniteContext缓存valigniteContext=newIgniteContext(sc,“example-shared-rdd.xml”,false)valsharedIgniteRDD=igniteContext.fromCache[S

scala - 递归地向数据框添加行

我是spark的新手。我有一些作为HttpResponse的json数据。我需要将这些数据存储在配置单元表中。每个HttpGet请求都会返回一个json,它将成为表中的一行。因此,我不得不将单行作为文件写入配置单元表目录中。但是我觉得小文件太多会降低速度和效率。那么有没有一种方法可以递归地将新行添加到Dataframe并将其一次性写入配置单元表目录。我觉得这也会减少我的spark代码的运行时间。例子:for(i我知道数据帧是不可变的。有办法实现吗?如有任何帮助,我们将不胜感激。谢谢。 最佳答案 你基本上是在正确的轨道上,你要做的是获