草庐IT

spark-hive

全部标签

java - spark map 方法抛出序列化异常

我是Spark的新手,我在map函数中遇到序列化问题。这是代码的一些元素privateFunctionSparkMap()throwsIOException{returnnewFunction(){publicStringcall(Rowrow)throwsIOException{/*somecode*/}};}publicstaticvoidmain(String[]args)throwsException{MyClassmyClass=newMyClass();SQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext

scala - 使用 HBase 的 Spark 作业失败

我运行的任何涉及HBase访问的Spark作业都会导致以下错误。我自己的工作是在Scala中,但提供的python示例以相同的方式结束。集群是Cloudera,运行CDH5.4.4。相同的作业在使用CDH5.3.1的不同集群上运行良好。非常感谢任何帮助!...15/08/1521:46:30WARNTableInputFormatBase:initializeTablecalledmultipletimes.Overwritingconnectionandtablereference;TableInputFormatBasewillnotclosetheseoldreferencesw

hadoop - Fiware Cosmos Hive 授权问题

我正在使用FiwareCosmos的共享实例(意思是我没有root权限)。直到今天,我已经成功地使用jdbc和HiveCLI远程访问和管理了hive中的表。但是现在我在启动HiveCLI时遇到了这个错误:log4j:ERRORCouldnotinstantiateclass[org.apache.hadoop.hive.shims.HiveEventCounter].java.lang.RuntimeException:Couldnotloadshimsinclassorg.apache.hadoop.log.metrics.EventCounteratorg.apache.hadoo

java - 如何使用 Spark Streaming Java API 将 Twitter 推文写入 HDFS

SparkConfconf=newSparkConf().setMaster("local[2]").setAppName("SparkTwitterHelloWorldExample");JavaStreamingContextjssc=newJavaStreamingContext(conf,newDuration(60000));System.setProperty("twitter4j.oauth.consumerKey",consumerKey);System.setProperty("twitter4j.oauth.consumerSecret",consumerSecre

超详细的hive和mysql的安装与配置以及hive服务启动脚本

目录一、说明二、Hive安装与配置1.上传文件并解压2.修改目录名称3.配置hive环境变量4.删除冲突jar包5.启动hadoop集群6.初始化元数据库并启动三、MySQL安装与配置1.检查和上传文件并解压四、hive服务启动脚本1.创建脚本2.修改权限3.脚本使用方法一、说明本文使用的hive为:hive-3.1.2mysql版本为:mysql-5.7.28mysql驱动版本为:mysql-connector-java-5.1.37本文采用本地安装模式二、Hive安装与配置1.上传文件并解压进入/opt/software/目录[root@bigdata2023master ~]$cd/op

java - 通过java代码spark-submit

我正在尝试通过Java代码进行spark-submit。我指的是以下示例。https://github.com/mahmoudparsian/data-algorithms-book/blob/master/misc/how-to-submit-spark-job-to-yarn-from-java-code.md但是我得到了TheconstructorClientArguments(String[],SparkConf)isundefined这是我的代码。importorg.apache.spark.deploy.yarn.Client;importorg.apache.spark.

hadoop - Spark 合并与 HDFS getmerge

我正在用Spark开发一个程序。我需要将结果放在一个文件中,因此有两种方法可以合并结果:合并(Spark):myRDD.coalesce(1,false).saveAsTextFile(pathOut);之后在HDFS中合并它:hadoopfs-getmergepathOutlocalPath哪个最有效、最快速?是否有任何其他方法可以合并HDFS中的文件(如“getmerge”),将结果保存到HDFS,而不是将其保存到本地路径? 最佳答案 如果您确定您的数据适合内存,那么coalesce可能是最好的选择,但在其他情况下,为了避免OO

hadoop - Hive 中的许多分区

对于“id”列,我有大约200,000个不同的值,我将它用作动态分区Hive表之一的分区键。现在分区已创建,当我尝试查询时(我使用了简单的Select*查询),它总是返回以下错误:FAILED:SemanticExceptionorg.apache.hadoop.hive.ql.metadata.HiveException:org.apache.thrift.transport.TTransportException:java.net.SocketTimeoutException:Readtimedout谁能告诉我为什么? 最佳答案

java - 从 Spark 类路径中删除 Jars

我正在使用ElasticSearchSparkJar。但出于某种原因,当我启动我的sparkcontext时,它还会从/usr/lib/hive/lib/elasticsearch-hadoop-hive-2.1.0.jar这会导致两者发生冲突的elasticrdd问题。有谁知道那个Jar是如何进入Spark的,以及我如何最好在启动上下文之前将它从spark类路径中删除?谢谢。 最佳答案 事实证明,这是加载该目录的conf/spark-env.sh中的默认配置。这很容易通过加载一个不同的文件夹来解决,其中包含您想要的jar而不是您不

JAVA - SPARK - saveAsTextFile 不能应用于 '(java.lang.String, org.apache.hadoop.io.compress.CompressionCodec)'

我正在使用Spark在JAVA中编写程序。我有一个名为“copied_logs”的JavaRDD,它使用映射并从位于hdfs上的日志中复制几个字段。现在,我想用Bzip2压缩“copied_logs”然后保存。我想使用“saveAsTextFile”函数将这些数据保存在hdfs上。我的压缩保存代码如下:CompressionCodeccodec=newBZip2Codec();copied_logs.saveAsTextFile(output_dir+"copied_logs.json",codec);但是我得到这个错误:Error:(128,69)java:incompatiblet