$hive

hadoop - 如何将 Cassandra 与 Hadoop 集成以利用 Hive

在2015年我一直在寻找将Cassandra集成到Hadoop上的解决方案已经将近3天了，网上的许多资源都已过时或从网上消失，而且DatastaxEnterprise没有提供免费的解决方案这样的整合。这样做有哪些选择？我想使用Hive查询语言从我的Cassandra获取数据，我认为第一步是将Cassandra与Hadoop集成。最佳答案最简单(但也是付费选项)是将C*的DatastaxEnterprise打包与Hadoop+Hive一起使用。这提供了Hive表与C*的自动连接和注册，并在需要时包括并设置Hadoop执行平台。ht

以利 Cassandra section datastax hadoop hive bigdata

apache - 使用 Hadoop YARN 在本地模式下运行 Hive 查询

大多数示例使用以下命令以本地模式提及运行Hive。SETmapred.job.tracker=local但是对于YARN，当在YARN集群上运行时，我们如何在本地模式下执行Hive作业。最佳答案这应该适用于Yarn(我用beeline测试过):设置mapreduce.framework.name=local; 关于apache-使用HadoopYARN在本地模式下运行Hive查询，我们在StackOverflow上找到一个类似的问题： https://st

apache Hadoop section stackoverflow questions hive bigdata

Hadoop Map Reduce 作业 : Class org. 找不到 apache.hive.hcatalog.mapreduce.HCatInputFormat

我正在使用kylin.它是一个数据仓库工具，它使用hadoop、hive和hbase。它附带示例数据，以便我们可以测试系统。我正在构建这个样本。这是一个多步骤过程，其中许多步骤都是map-reduce作业。第二步是ExtractFactTableDistinctColumns，这是一个MR作业。如果没有在hadoop日志中写入任何内容，这项工作就会失败。深入挖掘后，我在logs/userlogs/application_1450941430146_0002/container_1450941430146_0002_01_000004/syslog中发现了一个异常2015-12-2407

HCatInputFormat mapreduce apache hadoop org hive kylin

hadoop - 如何在两个指向同一个文件的EXTERNAL TABLES上在HIVE中创建UNION

我正在尝试编写一个Hive脚本来创建两个外部表，它们都指向具有不同正则表达式(过滤器)的同一文件位置。当我尝试在它们之间创建UNION时，结果与预期不符。第一段代码创建表CREATEEXTERNALTABLElogsFormat1(col1INT,col2STRING,col3INT)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="Regex1","output.format.string"="%1$s%2$s%3$s")STOREDASTEXTFILE

中创何在 section logsFormat 34 hadoop hive hiveql hadoop-partitioning

hadoop - Apache Hive 安装在伪分布式或多节点集群环境

我已经在我的电脑的多节点环境中安装了hadoop，如下所示1:4个加载ubuntu(14.04)的virtualbox实例2:1-masternode2-slavenode其余vm实例作为client注意:所有4个虚拟机都在我的PC中运行我能够在上述设置上成功完成apace-2.6hadoop设置。现在我想安装hive以便进行一些数据汇总、查询和分析。但我不确定我必须如何进一步进行。我有以下几个疑问:问题1:我是否需要在所有节点(主节点/名称节点和从节点/数据节点)上安装/设置ApacheHive(0.14)？还是仅在主节点上？Q2:meta-store应该用什么模式来处理，是本地模式

hadoop Apache section Metastore strong hive hbase hdfs hadoop2

hadoop - Hive 表的基于时间的查询

我的表结构是这样的:hive>describeuser_data2;OKreceived_atstringmessage_idstringtypestringversionstringtimestamp_userstringuser_idstringsent_atstringchannelstringtime_logstring我的目标是这个领域，hive>selectreceived_at,time_log,user_idfromuser_data2limit5;OK2016-01-08T12:27:05.565Z14522560258368712016-01-08T12:27:12

hadoop Hive string section code apache-pig

java - 使用jdbc在hive中插入map等复杂类型

我有一个java映射(Map)和一个到配置单元服务器的JDBC连接。服务器上表的架构包含一个Map类型的列。是否可以使用JDBC将javaMap插入到具有相似数据类型的hive表列？我试过:"createtabletest(keystring,valueMap)""insertintotabletestvalues('keywer',map('subkey','subvalue'))fromdummylimit1;"引用:Hiveinsertingvaluestoanarraycomplextypecolumn但插入失败:"Error:Errorwhilecompilingstatem

java hive section stackoverflow 39 hadoop jdbc hiveql

hadoop - Zeppelin 的 Hive 解释器抛出空指针异常

我正在使用从https://github.com/apache/incubator-zeppelin克隆的飞艇.hive:版本1.2.1Hive配置为独立模式，metastore_db由Derby处理。我在zeppelinnotebook中正确设置了Hive解释器。我已经成功地从配置单元解释器创建了一个表，如下所示%hiveCREATETABLE30SEC(idbigint,obu_idvarchar(100),obu_makevarchar(100),)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASTextFile我成功地从我的hdfs

Zeppelin hadoop section noreferrer https hive hdfs bigdata

Hadoop Hive 查询将行合并为一行

我需要一个配置单元查询，它根据另一个表的优先级将相同的EAN行合并到表中的一个记录中。表:产品如上图所示，我有来自不同来源(sourceid)的不同产品，我只需要一行，根据以下优先级合并所有来源数据。如果优先级“1”源不提供任何字段信息，则该字段信息将从优先级“2”源获取。表:优先级node_idSource_idPriority16211303212023我期待如下所示的结果。最佳答案您实际上可以使用collectudf来收集基于一个字段的所有其他字段。或者您可以使用一些嵌套数组或结构将数据放入单行中，如果您不想丢失任何数据。

Hadoop Hive section image noreferrer hiveql

hadoop - hive |无法创建分区表 |解析异常

我正在尝试从HiveCLI创建一个分区表，CREATEEXTERNALTABLEIFNOTEXISTSstocks(ymdSTRING,price_openFLOAT,price_highFLOAT,price_lowFLOAT,price_closeFLOAT,volumeFLOAT,price_adj_closeFLOAT)PARTITIONEDBY(exchangeSTRING,symbolSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY',';但是终端抛出异常而不是“ParseException”。错误转储，NoViableAltExcep

hadoop hive apache HiveParser hiveql

189 190 191192193 194 195