HIVE

hadoop - 拆分功能在 Cloudera Impala 中不起作用

当我尝试在ClouderaImpala中使用拆分功能时，我不断收到“拆分未知”的AnalysisException。它似乎是内置函数页面上列出的有效函数。作为引用，我使用Hue与Impala进行交互。有谁知道这个问题的原因吗？最佳答案 Impala中的以下作品:split_part(stringsource,stringdelimiter,bigintn)文档在这里:https://www.cloudera.com/documentation/enterprise/5-9-x/topics/impala_string_functi

hadoop - $HIVE_HOME/bin/hive --service hiveserver

我是Hadoop/hive的新手。我已经安装了hadoop和hive。当我使用hive作为命令提示符时它工作正常但是我要实现hive的JDBC然后键入以下命令hive>$HIVE_HOME/bin/hive--servicehiveserver然后出现以下错误，所以请帮助我如何实现配置单元的jdbc请任何人帮助我...hduser@ubuntu:~$$HIVE_HOME/bin/hive--servicehiveserverStartingHiveThriftServerWARNING:org.apache.hadoop.metrics.jvm.EventCounterisdeprec

hiveserver HIVE_HOME section hive apache hadoop apache-pig hiveql

hadoop - 配置单元:使用带分隔符的 collect_set

我正在尝试在配置单元查询中使用collect_set按条件对组中的列进行分组。每行都有空格作为分隔符，而不是“，”之类的。在这种情况下如何将分隔符更改为“，”或任何其他分隔符？提前致谢。问候，娜迦本普拉拉最佳答案 COLLECT_SET返回一个数组，然后您可以使用CONCAT_WS将条目连接成单个逗号分隔值:selectserial_num,concat_ws(",",collect_set(customer_lastName))asconcatenate_lastNamesfromExternal_Tablegroupbyser

配置单 collect_set section code hadoop hive

java - 失败，异常 java.io.IOException :org. apache.avro.AvroTypeException : Found long, 期望在配置单元中联合

需要帮助!!!我正在使用flume将Twitter提要流式传输到hdfs中并将其加载到hive中进行分析。步骤如下:hdfs中的数据:我已经描述了avroschema在avsc文件并将其放入hadoop中:{"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":"user_friends_count","type":["int","null"]},{"name":"user_location","type":["string","null"]},{"name":

配置单 AvroTypeException 34 string name java hadoop hive

hadoop - Hive 和 Hadoop MapReduce 之间的关系？

是否有任何连接到reduce或map任务的Hive内部进程？添加到那个!Hive如何与MapReduce结合使用？工作是如何安排的？查询结果如何返回给hivedriver？最佳答案对于HIVE，没有直接通信Map/Reduce任务的过程。它与Jobtracker(YARN中的ApplicationMaster)进行通信(流程6.3)，仅用于一旦安排好作业处理相关的事情。这张图片将使您清楚地了解，HowHIVEusesMapReduceasexecutionengine?Howisthejobgettingscheduled?Ho

MapReduce hadoop section strong Hive hdfs

hadoop - 无法使用直线连接到配置单元，用户 root 无法模拟匿名

我正在尝试使用beeline!connectjdbc:hive2://localhost:10000连接到hive，系统要求我输入用户名和密码连接到jdbc:hive2://localhost:10000'输入jdbc的用户名:hive2://localhost:10000:输入jdbc的密码:hive2://localhost:10000:因为我不知道应该输入什么用户名或密码，所以我将其留空，这会导致错误:Error:Failedtoopennewsession:java.lang.RuntimeException:org.apache.hadoop.ipc.RemoteExcept

配置单匿名 code section hadoop hive beeline

hadoop - 使用 Pig/Hive 进行数据处理而不是直接使用 java map reduce 代码？

(比DifferencebetweenPigandHive?Whyhaveboth?更基础)我有一个数据处理管道，用Hadoop上的多个Javamap-reduce任务编写(我自己的自定义代码，源自Hadoop的Mapper和Reducer)。它是一系列基本操作，例如连接、反转、排序和分组依据。我的代码涉及并且不是很通用。继续这种公认的开发密集型方法与使用多个UDF将所有内容迁移到Pig/Hive的优缺点是什么？哪些工作我不能执行？我会遭受性能下降(使用100sTB)吗？维护时我会失去调整和调试代码的能力吗？我能否将部分作业作为Javamap-reduce进行流水线处理，并将它们的输入

hadoop reduce section stackoverflow mapreduce hive apache-pig

hadoop - Hbase 中的日志结构化合并树

我正在研究Hbase。我对Hbase如何使用LSM按排序顺序存储数据有疑问。据我了解，Hbase在大规模数据处理中使用LSMTree进行数据传输。当数据来自客户端时，它首先按顺序存储在内存中，然后排序并存储为B-Tree作为存储文件。比它将存储文件与磁盘B树(关键)合并。这是正确的吗？我错过了什么吗？如果是，则在集群环境中。有多个接受客户端请求的RegionServer。在那种情况下，(每个区域服务器的)所有Hlog如何与磁盘B树合并(作为现有key分布在所有数据节点磁盘上)？是不是像Hlog一样只是合并同一个regionServer的Hfile的数据？最

结构化 hadoop blog section li hbase hive hdfs

join - 运行 HIVE Join 查询时，Reducers 在 66.68% 时停止工作

尝试连接6个表，每个表中大约有500万行。尝试加入在所有表上按升序排序的帐号。Map任务成功完成，reducer在66.68%时停止工作。尝试了增加reducer数量等选项，还尝试了其他选项sethive.auto.convert.join=true;并设置hive.hashtable.max.memory.usage=0.9；并设置hive.smalltable.filesize=25000000L；但结果是一样的。尝试使用少量记录(如5000行)，查询效果非常好。请建议可以在这里做什么以使其发挥作用。最佳答案 66%的Redu

Reducers 66.68%section reducer 1000 join hadoop mapreduce hive

hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)

您好，我是Hive的新手，我已经了解了hadoop中的桶概念，但未能理解以下几行。有人可以帮助我吗？SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF32);TABLESAMPLE的一般语法是表样本(从y中取出x桶)查询的样本量约为1/y。此外，y需要是创建表时为表指定的桶数的倍数或因数。例如，如果我们将y更改为16，则查询变为SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF16);那么样本量大约包括每16个用户中的1个(因为bucket列是userid)。该表

mdash TABLESAMPLE code section hadoop mapreduce hive

126 127 128129130 131 132