spark-hive

java - Hive UDTF 返回 ArrayList 列

我是HiveUDTF的新手。我有一个要求，我必须在UDTF中将字符串值作为Paratmeter传递，并且返回的Column应该是ArrayList。我写了下面的代码:publicStructObjectInspectorinitialize(ObjectInspector[]arg0)throwsUDFArgumentException{ArrayListfieldNames=newArrayList();ArrayListfieldOIs=newArrayList();fieldNames.add("col1");stringOI=(PrimitiveObjectInspector)

batch-file - Apache Spark : batch processing of files

我在HDFS上设置了目录和子目录，我想在将所有文件一次加载到内存中之前预处理所有文件。我基本上有大文件(1MB)，一旦处理将更像1KB，然后执行sc.wholeTextFiles开始我的分析我如何在我的目录/子目录中的每个文件(*.xml)上循环，执行一个操作(假设为了示例的缘故，保留第一行)，然后转储结果回到HDFS(新文件，比如.xmlr)？最佳答案我建议您只使用sc.wholeTextFiles并使用转换对其进行预处理，然后将它们全部保存为单个压缩序列文件(您可以引用我的指南:http://0x0fff.com/spark

batch batch-file section code 子目 hadoop apache-spark hdfs

Spark---RDD算子(单值类型Value)

文章目录1.RDD算子介绍2.转换算子2.1Value类型2.1.1map2.1.2mapPartitions2.1.3mapPartitionsWithIndex2.1.4flatMap2.1.5glom2.1.6groupBy2.1.7filter2.1.8sample2.1.9distinct2.1.10coalesce2.1.11repartition2.1.12sortBy1.RDD算子介绍RDD算子是用于对RDD进行转换（Transformation）或行动（Action）操作的方法或函数。通俗来讲，RDD算子就是RDD中的函数或者方法，根据其功能，RDD算子可以分为两大类：转换算

算子类型 xff0c xff xff0 spark javascript 服务器

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表，但是当我在Scala中执行相同的实现时，会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

MetaException Spark-Scala strong section hive scala hadoop hbase apache-spark pyspark

hadoop - HIVE QUERY SELECT * FROM bookfreq where freq IN (SELECT Max(freq) FROM bookfreq);

我正在编写配置单元查询，因为获取记录具有最大频率值。tablenamebookfreq,havingtwocolumnyear&freqyearfreq19992200041989419905查询:SELECT*FROMbookfreqwherefreqIN(SELECTMax(freq)FROMbookfreq);我遇到了这样的异常FAILED:ParseExceptionline1:38cannotrecognizeinputnear'SELECT''Max''('inexpressionspecification 最佳答案如

bookfreq SELECT code freq hadoop hive hiveql

hadoop - 是否可以使用 spark 的 jdbc 驱动程序将 apache spark 与 jasper 集成？

我们想使用apachespark进行实时分析？我们目前使用hive/MR进行数据处理，使用mysqlsql存储聚合结果，使用jasper报告进行分析？由于mysql的可伸缩性问题，这种方法远非理想。我们正在探索apachespark在hdfs或cassandra之上运行，唯一的问题是是否有办法让spark与jasper服务器集成？如果不是，还有哪些其他UI选项可以与spark一起使用？最佳答案我找到了共享的答案和想法，如果你将hivemetastore与spark一起使用，你可以将RDD持久化为hive表，一旦你这样做了，任何使

spark 驱动 section hive hadoop jasper-reports apache-spark spark-streaming

shell - 如果 Hive 失败则停止 Bash 脚本

我有一个循环遍历文件夹并处理所有*.hql文件的bash脚本。有时，其中一个配置单元脚本失败(语法、资源限制等)，而不是脚本失败，它将继续到下一个.hql文件。无论如何，我可以阻止bash处理剩余的部分吗？下面是我的示例bash:foriin`ls${layer}/*.hql`;doecho"Processing$i..."hive${hiveconf_all}-hiveconfDATE=${date}-f${i}&if[$j-le5];thenj=$((j+1))elsewaitj=0fidone 最佳答案我会检查前一个命令的进

shell Hive section code stackoverflow hadoop

sql - Teradata 和 HIVE 之间的字符串匹配差异

我正在进入Hive并学习Hive。我在teradata中有客户表，使用sqoop在hive中提取完整表，效果很好。请参阅下面的Teradata和HIVE客户表。在Teradata中:selectTOP4id,name,'"'||status||'"'fromcustomer;3172460Customer#003172460"BUILDING"3017726Customer#003017726"BUILDING"2817987Customer#002817987"COMPLETE"2817984Customer#002817984"BUILDING"在HIVE中:selectid,na

Teradata HIVE BUILDING 34 Customer sql hadoop

hadoop - Apache Spark 在工作开始前做什么

我有一个在AWSEMR上连续运行的ApacheSpark批处理作业。它从AWSS3中提取数据，使用该数据运行几个作业，然后将数据存储在RDS实例中。但是，作业之间似乎有很长一段时间没有事件。这是CPU使用情况:这是网络:注意每列之间的间隙，它几乎与事件列的大小相同!起初我以为这两列发生了移动(当它从S3中提取时，它没有使用大量CPU，反之亦然)但后来我注意到这两个图表实际上是相互跟随的。这是有道理的，因为RDD是惰性的，因此会在作业运行时拉动。这引出了我的问题，那段时间Spark在做什么？在那段时间里，所有的Ganglia图表似乎都归零了。就好像集群决定在每个作业之前休息一下。谢谢。编

hadoop Apache code INFO executor amazon-web-services amazon-s3 apache-spark emr

hadoop - 在脚本中运行脚本？ - Hive(和其他 QL)

是否可以在运行脚本的其余部分之前调用脚本并运行它？我的目标是执行一个设置脚本，该脚本将下载和组织执行我的主要查询所需的数据。我正在寻找类似的东西:createtablelogcontent(contentstring)rowformatdelimitedfieldsterminatedby'\n';**callsecondaryhivescriptwithdate-rangeargumentsanddownloadnecessarylogsinto****performtherestofthequery**我想这样做是为了为表格设置创建一个很好的抽象，以便最终用户不必担心表格设置，这将

中运 hadoop section the hive hdfs hue

134 135 136137138 139 140