草庐IT

scala-cats

全部标签

scala - 读取 s3 存储桶时出错

我在尝试使用spark从s3读取文件时遇到异常。错误和代码如下。该文件夹由许多名为part-00000part-00001等的文件组成,这些文件来自hadoop。它们的文件大小范围从0kb到几gb16/04/0715:38:58INFONativeS3FileSystem:Openingkey'titlematching214/1.0/bypublicdemand/part-00000'forreadingatposition'0'16/04/0715:38:58ERRORExecutor:Exceptionintask0.0instage0.0(TID0)org.apache.had

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub,请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

scala - 错误 : not found: value assemblyJarName in assembly

我是大数据和hadoop的新手,我正在尝试使用hadoopcryptoledger库来做一些比特币图分析,我遵循了本教程Usingspark-scala-graphxtoanalyzeBitcointransactiongraph执行命令时sbtcleanassemblytestit:test我遇到了一个问题:/home/jnikhil/hadoopcryptoledger/examples/scala-spark-graphx-bitcointransaction/build.sbt:30:error:notfound:valueassemblyJarNameassemblyJarN

scala - 对于 ETL,ORC 性能真的比 Spark SQL 更好的 Tez 上的 Hive 吗?

我在Hive方面经验不多,目前正在使用Scala学习Spark。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了很多有测试结果的论坛,但他们比较了旧版本的Spark,其中大部分是2015年编写的。下面总结了要点ORC将与Spark中的parquet做同样的事情Tez引擎将像Spark引擎一样提供更好的性能Hive中的连接比Spark更好/更快我觉得Hortonworks对Hive的支持比对Spark和Cloudera的支持更多,反之亦然。示例链接:link1link2link3最初我认为Spark会比任何东西都快,因为它们在内存中执行。在阅读了一些文章之后,我发现现有

scala - 使用 SBT 离线解决 org.apache.hadoop 依赖性的错误

我正在尝试卡住spark项目的依赖项以便能够离线工作(sbt无法再下载依赖项)。这是我遵循的过程:创建sbt项目并使用internet连接编译停止互联网连接验证项目是否继续编译复制SBT项目并删除TARGET文件夹告诉Build.sbt文件从/.ivy2/cache文件夹中解析依赖这是build.sbt:name:="Test"version:="1.0"scalaVersion:="2.10.4"libraryDependencies+="org.apache.spark"%%"spark-core"%"1.3.0"resolvers+=Resolver.file("FrozenIV

scala - 使用 Apache Spark 将 MongoDB 数据保存为 parquet 文件格式

我是Apachespark和Scala编程语言的新手。我想要实现的是从我的本地mongoDB数据库中提取数据,然后将其保存在parquetformat中。将ApacheSpark与hadoop连接器结合使用到目前为止,这是我的代码:packagecom.examplesimportorg.apache.spark.{SparkContext,SparkConf}importorg.apache.spark.rdd.RDDimportorg.apache.hadoop.conf.Configurationimportorg.bson.BSONObjectimportcom.mongodb

scala - Spark-shell 命令抛出错误

我正在尝试使用$spark-shell打开sparkshell,它每次都在工作,但今天突然抛出了这个错误:错误WARNutil.Utils:Service'SparkUI'couldnotbindonport4040.Attemptingport4041. 最佳答案 如果你不再需要它,你可以终止监听端口4040的进程fuser-k-ntcp4040或者如果您需要两个实例,您可以使用另一个端口启动一个新的spark-shellspark-shell--confspark.ui.port=4048

scala - 当我尝试通过 Cloudera VM 在 spark 中运行 scala 命令时,topology.py 出现语法错误

每次我尝试按照Scala命令运行valdataRDD=sc.textFile("hdfs://quickstart.cloudera:8020/user/cloudera/data/data.txt")dataRDD.collect().foreach(println)//ordataRDD.count()我得到以下异常-exitCodeExceptionexitCode=1:File"/etc/hadoop/conf.cloudera.yarn/topology.py",line43printdefault_rack^SyntaxError:Missingparenthesesinc

scala - EMR Spark 无法将 Dataframe 保存到 S3

我正在使用RunJobFlow命令启动SparkEMR集群。此命令设置JobFlowRole到具有政策AmazonElasticMapReduceforEC2Role的IAM角色和AmazonRedshiftReadOnlyAccess.第一个策略包含允许所有s3权限的操作。当EC2实例启动时,它们会承担这个IAM角色,并通过STS生成临时凭证。我做的第一件事是使用com.databricks.spark.redshift从我的Redshift集群读取一个表到一个SparkDataframe中。格式并使用相同的IAM角色从redshift卸载数据,就像我为EMR所做的那样JobFlow

scala - 如何在spark中为输入文件定义多个自定义分隔符?

通过Spark读取文件时,默认的输入文件分隔符是换行符(\n)。可以使用“textinputformat.record.delimiter”属性定义自定义分隔符。但是,是否可以为同一个文件指定多个分隔符?假设一个文件有以下内容:COMMENT,A,B,CCOMMENT,D,E,FLIKE,I,H,GCOMMENT,J,K,LCOMMENT,M,N,O我想用COMMENT和LIKE而不是换行符来读取这个文件。不过,如果spark中不允许使用多个定界符,我想出了一个替代方案。valss=SparkSession.builder().appName("SentimentAnalysis").