草庐IT

spark-hive

全部标签

java - Hive UDTF 返回 ArrayList 列

我是HiveUDTF的新手。我有一个要求,我必须在UDTF中将字符串值作为Paratmeter传递,并且返回的Column应该是ArrayList。我写了下面的代码:publicStructObjectInspectorinitialize(ObjectInspector[]arg0)throwsUDFArgumentException{ArrayListfieldNames=newArrayList();ArrayListfieldOIs=newArrayList();fieldNames.add("col1");stringOI=(PrimitiveObjectInspector)

batch-file - Apache Spark : batch processing of files

我在HDFS上设置了目录和子目录,我想在将所有文件一次加载到内存中之前预处理所有文件。我基本上有大文件(1MB),一旦处理将更像1KB,然后执行sc.wholeTextFiles开始我的分析我如何在我的目录/子目录中的每个文件(*.xml)上循环,执行一个操作(假设为了示例的缘故,保留第一行),然后转储结果回到HDFS(新文件,比如.xmlr)? 最佳答案 我建议您只使用sc.wholeTextFiles并使用转换对其进行预处理,然后将它们全部保存为单个压缩序列文件(您可以引用我的指南:http://0x0fff.com/spark

Spark---RDD算子(单值类型Value)

文章目录1.RDD算子介绍2.转换算子2.1Value类型2.1.1map2.1.2mapPartitions2.1.3mapPartitionsWithIndex2.1.4flatMap2.1.5glom2.1.6groupBy2.1.7filter2.1.8sample2.1.9distinct2.1.10coalesce2.1.11repartition2.1.12sortBy1.RDD算子介绍RDD算子是用于对RDD进行转换(Transformation)或行动(Action)操作的方法或函数。通俗来讲,RDD算子就是RDD中的函数或者方法,根据其功能,RDD算子可以分为两大类:转换算

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表,但是当我在Scala中执行相同的实现时,会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

hadoop - HIVE QUERY SELECT * FROM bookfreq where freq IN (SELECT Max(freq) FROM bookfreq);

我正在编写配置单元查询,因为获取记录具有最大频率值。tablenamebookfreq,havingtwocolumnyear&freqyearfreq19992200041989419905查询:SELECT*FROMbookfreqwherefreqIN(SELECTMax(freq)FROMbookfreq);我遇到了这样的异常FAILED:ParseExceptionline1:38cannotrecognizeinputnear'SELECT''Max''('inexpressionspecification 最佳答案 如

hadoop - 是否可以使用 spark 的 jdbc 驱动程序将 apache spark 与 jasper 集成?

我们想使用apachespark进行实时分析?我们目前使用hive/MR进行数据处理,使用mysqlsql存储聚合结果,使用jasper报告进行分析?由于mysql的可伸缩性问题,这种方法远非理想。我们正在探索apachespark在hdfs或cassandra之上运行,唯一的问题是是否有办法让spark与jasper服务器集成?如果不是,还有哪些其他UI选项可以与spark一起使用? 最佳答案 我找到了共享的答案和想法,如果你将hivemetastore与spark一起使用,你可以将RDD持久化为hive表,一旦你这样做了,任何使

shell - 如果 Hive 失败则停止 Bash 脚本

我有一个循环遍历文件夹并处理所有*.hql文件的bash脚本。有时,其中一个配置单元脚本失败(语法、资源限制等),而不是脚本失败,它将继续到下一个.hql文件。无论如何,我可以阻止bash处理剩余的部分吗?下面是我的示例bash:foriin`ls${layer}/*.hql`;doecho"Processing$i..."hive${hiveconf_all}-hiveconfDATE=${date}-f${i}&if[$j-le5];thenj=$((j+1))elsewaitj=0fidone 最佳答案 我会检查前一个命令的进

sql - Teradata 和 HIVE 之间的字符串匹配差异

我正在进入Hive并学习Hive。我在teradata中有客户表,使用sqoop在hive中提取完整表,效果很好。请参阅下面的Teradata和HIVE客户表。在Teradata中:selectTOP4id,name,'"'||status||'"'fromcustomer;3172460Customer#003172460"BUILDING"3017726Customer#003017726"BUILDING"2817987Customer#002817987"COMPLETE"2817984Customer#002817984"BUILDING"在HIVE中:selectid,na

hadoop - Apache Spark 在工作开始前做什么

我有一个在AWSEMR上连续运行的ApacheSpark批处理作业。它从AWSS3中提取数据,使用该数据运行几个作业,然后将数据存储在RDS实例中。但是,作业之间似乎有很长一段时间没有事件。这是CPU使用情况:这是网络:注意每列之间的间隙,它几乎与事件列的大小相同!起初我以为这两列发生了移动(当它从S3中提取时,它没有使用大量CPU,反之亦然)但后来我注意到这两个图表实际上是相互跟随的。这是有道理的,因为RDD是惰性的,因此会在作业运行时拉动。这引出了我的问题,那段时间Spark在做什么?在那段时间里,所有的Ganglia图表似乎都归零了。就好像集群决定在每个作业之前休息一下。谢谢。编

hadoop - 在脚本中运行脚本? - Hive(和其他 QL)

是否可以在运行脚本的其余部分之前调用脚本并运行它?我的目标是执行一个设置脚本,该脚本将下载和组织执行我的主要查询所需的数据。我正在寻找类似的东西:createtablelogcontent(contentstring)rowformatdelimitedfieldsterminatedby'\n';**callsecondaryhivescriptwithdate-rangeargumentsanddownloadnecessarylogsinto****performtherestofthequery**我想这样做是为了为表格设置创建一个很好的抽象,以便最终用户不必担心表格设置,这将