HIVE

java - 设置 hive.exec.pre.hooks 时出现 ClassNotFoundException

我正在按照此文档进行配置单元Hook:http://dharmeshkakadia.github.io/hive-hook/但是当showtables时我得到了这个错误2018-08-1209:57:38,122ERRORorg.apache.hadoop.hive.ql.Driver:[HiveServer2-Background-Pool:Thread-315]:hive.exec.pre.hooksClassnotfound:HiveExampleHook2018-08-1209:57:38,122ERRORorg.apache.hadoop.hive.ql.Driver:[Hi

时出 ClassNotFoundException java hive apache hadoop hook

sql - 使用 Hive 复杂数据类型

我正在尝试将文本文件加载到配置单元数据库中，文本文件中的值是,分隔的，这些值中有一个值是数组类型。这是我的示例数据。101,suresh,67,45,67,21,hyderabad这里:101:学号suresh:学生姓名67,45,67,21:学生成绩hyderabad:学生所在地这里我需要如何加载到配置单元中101,suresh,[67,45,67,21],hyderabad标记字段必须作为数组类型加载。我该怎么做？最佳答案您可以使用regexserde并创建文本表。问题出在数组类型，因为regexserde不允许数组数据类型

Hive sql strong code marks arrays hadoop custom-data-type

apache-spark - Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport() 是必要的吗？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我对Hive的理解是它提供了一种使用SQL命令查询HDFS的方法。好的，但还有Spark。Spark拥有所有RDD类方法，这些方法完全有能力，但我更喜欢SQL。输入SparkSQL。所以现在我可以使用SparkSQL通过SQL查询我的数据库，为什么Hive会出现？文档说:enableHiveSupport():EnablesHivesupport,includingconnectivity

enableHiveSupport apache-spark section Hive class hadoop

hadoop - SQL 中的动态聚合 (Hive)

我有两张table。表A有3列:用户标识、开始日期和结束日期。带有事件和日期时间戳的表B。我想根据表A将表B汇总到开始日期和结束日期之间的日期时间。所以类似...selecta.userid,count(distinctb.eventid)aseventsfromtableainnerjointablebona.userid=b.useridandb.datetimebetweena.starttimeandb.endtimegroupbya.userid但Hive不喜欢那样...我正在使用HadoopHortonWorks。非常感谢任何指导! 最佳答案

hadoop Hive section code aggregation

hadoop - 为了加快配置单元进程，如何使用 tez 调整映射器和缩减器数量

我尝试使用tez处理大数据(约150GB)的过程(句子的单词标签)，但问题是它花了很多时间(1周或更多)，然后我试图指定映射器的数量。虽然我设置了mapred.map.tasks=2000，但我无法阻止mapper被设置为150左右，所以我不能做我想做的事。我在oozie工作流文件中指定映射值并使用tez。如何指定映射器的数量？最后想加快进程，不用tez也可以。另外，我想用reducer统计标记的句子，也很花时间。而且，我还想知道如何调整内存大小以使用每个映射器和缩减器进程。最佳答案 Inordertomanuallysetthe

射器配置单 section code hadoop hive apache-tez

hadoop - YARN 无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

我的查询:我在ubantu上安装了配置单元。我之前测试过它是工作文件，但后来它开始出错。insertintotest2values(1,'Mahendra');我的hive错误:QueryID=mahendra_20180827145546_86973630-5eff-4764-ade8-cfc3a8ce5c37Totaljobs=3LaunchingJob1outof3Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.re

hadoop MRAppMaster gt lt property hive mapreduce hadoop-yarn

hadoop - 同时使用 max 和 sum

我有一种情况，我必须求和并最大数量来处理多个每天条目。我在clouderahive中有一个输入表:----------------------------date1|date2|qty----------------------------20180101|20180101|50----------------------------20180101|20180101|15----------------------------20180101|20180102|1----------------------------20180101|20180103|3--------------

hadoop max 20180101 date section hive cloudera

hadoop - Hive:如何处理数据文件中有分隔符的文件？

我有以下数据需要插入到配置单元表中。数据在文件中具有默认分隔符。如何插入到Hive表中？10,Andrew,Man”,”ager,DE,PC11,Arun,Manager,NJ,PC12,Harish,Sales,NJ,MAC13,Robert,Manager,PA,MAC14,Laura,Engineer,PA,MAC谢谢! 最佳答案尝试使用CSVSerdecreatetabletest_table(idint,...)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSer

何处 hadoop section 34 code hive bigdata hql

apache-spark - 在用压缩文件替换 HDFS 中的小文件时如何避免破坏事件的 Hive/Presto 查询？

我们有100多个HDFS分区，我们每天每小时都会写入这些分区。分区是每天进行的，以便直接加载到Hive中，数据以Parquet格式写入。我们遇到的问题是，因为我们想尽可能快地获取数据可查询，每小时写入导致很多小文件。有很多例子，例如Howtocombinesmallparquetfilestoonelargeparquetfile?对于合并代码；我的问题是在移动/替换新压缩的文件以替换小文件时如何避免破坏人们的主动查询？最佳答案 Metastore对每个分区都有一个文件系统位置。该位置通常基于表和分区:hdfs://namenod

apache-spark 在用 section parquet stackoverflow hadoop hive hdfs presto

sql - SQL中处理以 "00"开头的字符串

我使用Hadoop/hive，在处理以“00”开头的字符串数据时遇到问题。假设“00123”在Hadoop表中存储为string。我的问题是以下2个查询未按原样显示“00123”。而是显示“123”。从DB.TABLE中选择id，其中id="00123"从DB.TABLE中选择类型转换(id为字符串)，其中id="00123"我在Zeppelin上运行上面的查询。谁能帮忙？不确定问题是由于Hadoop还是Zeppelin。最佳答案此错误已在ZEPPELIN-3701中修复(缺少前几个'0'，结果表中数字精度下降)等待0.8.1版

amp 34 section 00123 中选 sql hadoop hive apache-zeppelin

40 41 424344 45 46