草庐IT

Spark-Hive

全部标签

xml - 在 Hive 中使用横向 View 时出现异常

我正在使用以下代码在Hive中解析xml数据。在我的xml数据中,一些标签在重复,所以我使用brickhousejar和横向View来解析标签并放置在Hive表中。但是当我执行我的代码时,我收到了一个错误。请帮忙,因为我无法理解我做错了什么。代码:addjar/home/cloudera/brickhouse-0.5.5.jar;CREATETEMPORARYFUNCTIONnumeric_rangeAS'brickhouse.udf.collect.NumericRange';CREATETEMPORARYFUNCTIONarray_indexAS'brickhouse.udf.co

hadoop - hdfs 和 hive 有什么关系?

我有psudeo分布式hadoop环境,使用sqoop和hive进行数据导入和分析。我使用sqoop将数据从mysql导入到hive并且它工作正常,我在我的hive位置获取了数据,即/user/hive/warehouse/我可以看到hive中的数据表。我的疑问是:当我从mysql导入到hive(构建在hadoop之上)时,数据会存储在hadoop中吗?为什么它在我的hdfs中创建/user/hive/warehouse?Hive如何处理数据?如果我在mysql中更新数据,我可以使用sqoop增量导入来更新hdfs中的数据,但如果我直接使用hive导入,它将反射(reflect)在hi

hadoop - Hive - 在不知道列名的情况下更改所有列的列类型

给定格式表:hive>describetableA;OKidinttstimestampvarfloat......我想使用类似于theone的解决方案由@interskh讨论在不知道并显式引用列名称的情况下将所有列转换为字符串。在语法行上:ALTERTABLEtableACHANGE>string 最佳答案 据我所知,您必须逐一更改列的数据类型。根据官方文档,您不能在单个查询中更改所有列的名称或数据类型。请引用this我最近回答的问题。 关于hadoop-Hive-在不知道列名的情况下

hadoop - 如何在 Hive 中使用使用 Apache Drill 创建的 Parquet 文件

ApacheDrill有一个很好的功能,可以从许多传入的数据集中制作parquet文件,但似乎没有很多关于以后如何使用这些parquet文件的信息——特别是在Hive中。Hive有没有办法利用那些“1_0_0.parquet”等文件?也许创建一个表并从parquet文件加载数据,或者创建一个表并以某种方式将这些parquet文件放入hdfs以便Hive读取它? 最佳答案 我遇到过这个问题,如果您使用的是Cloudera发行版,则可以使用impala创建表(Impala和Hive共享metastore),它允许从parquet文件创建

hadoop - 从 Hive 中的 collect_list 结果构造映射

一系列UNIONALL生成我想用来构建MAP的键值对列表。所需的功能是这样的:selectid1,id2,map(collect_list(col))asmeasurementsfrom(selectid1,id2,"height"ascolunionallselectid1,id2,count(*)ascolfromtable1unionallselectid1,id2,"weight"ascolunionallselectid1,id2,count(*)ascolfromtable2)什么是正确的实现方式?我希望得到的结果是:id1id2measurements110{"heigh

hadoop - Spark 和 HBase 版本兼容性

我正在尝试集成Spark和Hbase1.2.4。我目前正在使用hadoop2.7.3。谁能告诉我哪个版本的Spark与HBase1.2.4兼容? 最佳答案 我正在使用spark1.6版和hbase1.2版。所以我认为spark版本1.6或1.6.x肯定可以与hbase1.2.4一起使用。 关于hadoop-Spark和HBase版本兼容性,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questio

HIVE 表中的 JSON 数据上传给出 NoViableAltException/PraseException

我的Json在下面。我必须将此JSON加载到配置单元中,并且必须查询一些详细信息。{"id":"1234","pdid":"abcd","summary":{"tripStartTimestamp":1485263310528,"tripEndTimestamp":0,"status":10,"totalGPSDistanceMetres":0,"avgGPSSpeed":0,"maxGPSSpeed":0,"avgInstMileage":0,"totalHaltTimeSeconds":0,"totalIdlingTimeSeconds":0,"totalRunningTimeMi

hadoop - 带有 emrfs 的 hive

我正在使用sqoop将表从AmazonRDS导入到Hive。该进程正在运行,数据存储在配置单元默认的hdfs目录中:/user/hive/warehouse。我需要将存储位置从hdfs更改为emrfss3。据我了解,我需要将属性hive.metastore.warehouse.dir的值(在主节点上的hive-site.xml中)更改为s3//bucket/warehouse-location。看来我没有修改文件hive-site.xml的权限。我正在寻找一些关于如何最好地做到这一点的建议。苏堤 最佳答案 您需要sudo权限才能修改

python - 使用 Spark 的默认 log4j 配置文件 : org/apache/spark/log4j-defaults. 属性将默认日志级别设置为 "WARN"

我是spark的新手,我将spark2.1.0与python2.7一起使用,但无法正常工作。我一直在寻找一个星期来找到我的问题的解决方案,但没有成功。当我在commmadLine中运行pyspark时出现以下错误:Python2.7.13(v2.7.13:a06454b1afa1,Dec172016,20:42:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or"license"formoreinformation.UsingSpark'sdefaultlog4jprofile:org/apache/s

hadoop - 简单的基于 deeplearning4J Java 的 Spark 示例?

我需要在hadoop集群中运行一个简单的基于Java的deeplearning4j示例,我找到了一个here.我需要指定来自命令行的输入(这应该是HDFS上的路径)并且输出应该转到HDFS,以供以后查看然而,在示例中没有提及,它是硬编码从本地文件系统输入并输出到本地文件系统。有人可以帮我吗? 最佳答案 也许是最近对我们示例的拉取请求的某种组合:https://github.com/deeplearning4j/dl4j-examples/pull/384Spring-hadoop可以帮助您吗?http://projects.spri