scala-cats

scala - 读取 s3 存储桶时出错

我在尝试使用spark从s3读取文件时遇到异常。错误和代码如下。该文件夹由许多名为part-00000part-00001等的文件组成，这些文件来自hadoop。它们的文件大小范围从0kb到几gb16/04/0715:38:58INFONativeS3FileSystem:Openingkey'titlematching214/1.0/bypublicdemand/part-00000'forreadingatposition'0'16/04/0715:38:58ERRORExecutor:Exceptionintask0.0instage0.0(TID0)org.apache.had

时出 scala 34 section code hadoop amazon-web-services amazon-s3 apache-spark

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub，请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

Writable generic code listInspector section scala hadoop generics hive

scala - 错误 : not found: value assemblyJarName in assembly

我是大数据和hadoop的新手，我正在尝试使用hadoopcryptoledger库来做一些比特币图分析，我遵循了本教程Usingspark-scala-graphxtoanalyzeBitcointransactiongraph执行命令时sbtcleanassemblytestit:test我遇到了一个问题:/home/jnikhil/hadoopcryptoledger/examples/scala-spark-graphx-bitcointransaction/build.sbt:30:error:notfound:valueassemblyJarNameassemblyJarN

assemblyJarName assembly section code scala hadoop

scala - 对于 ETL，ORC 性能真的比 Spark SQL 更好的 Tez 上的 Hive 吗？

我在Hive方面经验不多，目前正在使用Scala学习Spark。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了很多有测试结果的论坛，但他们比较了旧版本的Spark，其中大部分是2015年编写的。下面总结了要点ORC将与Spark中的parquet做同样的事情Tez引擎将像Spark引擎一样提供更好的性能Hive中的连接比Spark更好/更快我觉得Hortonworks对Hive的支持比对Spark和Cloudera的支持更多，反之亦然。示例链接:link1link2link3最初我认为Spark会比任何东西都快，因为它们在内存中执行。在阅读了一些文章之后，我发现现有

scala Spark li section hadoop apache-spark hive tez

scala - 使用 SBT 离线解决 org.apache.hadoop 依赖性的错误

我正在尝试卡住spark项目的依赖项以便能够离线工作(sbt无法再下载依赖项)。这是我遵循的过程:创建sbt项目并使用internet连接编译停止互联网连接验证项目是否继续编译复制SBT项目并删除TARGET文件夹告诉Build.sbt文件从/.ivy2/cache文件夹中解析依赖这是build.sbt:name:="Test"version:="1.0"scalaVersion:="2.10.4"libraryDependencies+="org.apache.spark"%%"spark-core"%"1.3.0"resolvers+=Resolver.file("FrozenIV

依赖性 apache hadoop hadoop-mapreduce-client-app scala apache-spark sbt offline

scala - 使用 Apache Spark 将 MongoDB 数据保存为 parquet 文件格式

我是Apachespark和Scala编程语言的新手。我想要实现的是从我的本地mongoDB数据库中提取数据，然后将其保存在parquetformat中。将ApacheSpark与hadoop连接器结合使用到目前为止，这是我的代码:packagecom.examplesimportorg.apache.spark.{SparkContext,SparkConf}importorg.apache.spark.rdd.RDDimportorg.apache.hadoop.conf.Configurationimportorg.bson.BSONObjectimportcom.mongodb

MongoDB parquet code section import scala hadoop apache-spark mongodb-hadoop

scala - Spark-shell 命令抛出错误

我正在尝试使用$spark-shell打开sparkshell，它每次都在工作，但今天突然抛出了这个错误:错误WARNutil.Utils:Service'SparkUI'couldnotbindonport4040.Attemptingport4041. 最佳答案如果你不再需要它，你可以终止监听端口4040的进程fuser-k-ntcp4040或者如果您需要两个实例，您可以使用另一个端口启动一个新的spark-shellspark-shell--confspark.ui.port=4048

Spark-shell scala section code spark hadoop apache-spark cloudera

scala - 当我尝试通过 Cloudera VM 在 spark 中运行 scala 命令时，topology.py 出现语法错误

每次我尝试按照Scala命令运行valdataRDD=sc.textFile("hdfs://quickstart.cloudera:8020/user/cloudera/data/data.txt")dataRDD.collect().foreach(println)//ordataRDD.count()我得到以下异常-exitCodeExceptionexitCode=1:File"/etc/hadoop/conf.cloudera.yarn/topology.py",line43printdefault_rack^SyntaxError:Missingparenthesesinc

中运 scala section Cloudera hadoop pyspark cloudera-cdh cloudera-quickstart-vm

scala - EMR Spark 无法将 Dataframe 保存到 S3

我正在使用RunJobFlow命令启动SparkEMR集群。此命令设置JobFlowRole到具有政策AmazonElasticMapReduceforEC2Role的IAM角色和AmazonRedshiftReadOnlyAccess.第一个策略包含允许所有s3权限的操作。当EC2实例启动时，它们会承担这个IAM角色，并通过STS生成临时凭证。我做的第一件事是使用com.databricks.spark.redshift从我的Redshift集群读取一个表到一个SparkDataframe中。格式并使用相同的IAM角色从redshift卸载数据，就像我为EMR所做的那样JobFlow

Dataframe scala code 凭据 section amazon-web-services hadoop apache-spark amazon-s3

scala - 如何在spark中为输入文件定义多个自定义分隔符？

通过Spark读取文件时，默认的输入文件分隔符是换行符(\n)。可以使用“textinputformat.record.delimiter”属性定义自定义分隔符。但是，是否可以为同一个文件指定多个分隔符？假设一个文件有以下内容:COMMENT,A,B,CCOMMENT,D,E,FLIKE,I,H,GCOMMENT,J,K,LCOMMENT,M,N,O我想用COMMENT和LIKE而不是换行符来读取这个文件。不过，如果spark中不允许使用多个定界符，我想出了一个替代方案。valss=SparkSession.builder().appName("SentimentAnalysis").

自定何在 tempBuffer classOf scala hadoop apache-spark rdd

140 141 142143144 145 146