HIVE

sql - 比较两个配置单元表之间的计数

我正在尝试对两个表进行计数比较。由于减号运算符在hive中不起作用，因此它没有发生。您能否提供一些简单的方法来对两个表进行计数比较。select'CallDetail-HiveT1toHDFSStaging-DataCompare',casewhencnt>0then'Fail'Else'Pass'endfrom(selectcount(*)cntfrom((selectcount(*)fromstudents1s1)-(selectcount(*)fromstudents2s2))astbl1)astbl2;抛出错误:FAILED:ParseExceptionline81:0cann

hadoop - Hive:Mapreduce 文件丢失

我可以输入Hive-cli并创建新表。但是，当我尝试向表中插入数据时，它显示:java.io.FileNotFoundException:Filedoesnotexist:hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.0.1-mr-framework.tar.gz但是HDFS路径hdfsdfs-ls/user/yarn根本不存在。HDFS、YARN/MR、Hive状态正常，我尝试重启所有框架。为什么Yarn没有在HDFS上生成路径，也没有把tar文件放到HDFS路径下？如何解决这个问题？感谢您的帮助。

Mapreduce hadoop code section HDFS hive hadoop-yarn

sql - hive 日期转换问题

您好，在我的Hive表中，我有一列包含这样的日期值。cl1311020190000003011201900000031122019000000我试过像这样将列值转换为日期格式Selectfrom_unixtime(unix_timestamp(cl1,'yyyy/MM/dd'),'yyyy-MM-dd')fromtable1;它打印NULl。任何帮助将不胜感激。最佳答案您说您有dd-mm-yyyy格式的日期，但随后发布的数据中根本没有任何连字符假设31102019000000是31-oct-201900:00:00Selectf

hive sql section code pre hadoop bigdata hiveql

hadoop - 配置单元 : Drop database

我需要在配置单元中删除一个大数据库，但我找不到选项here跳过垃圾，如purge删除表。当为垃圾应用空间配额时，这可能会造成麻烦!任何仅使用配置单元DDL命令的建议？要清楚:我做什么:Dropdatabasecascade;我在寻找什么或类似的东西:Dropdatabasecascadepurge; 最佳答案配置单元默认.xmlhive.warehouse.data.skipTrashtrueSetthistotrueifyoudonotwanttabledatatobemovedtotrashwhiledroppingtable

配置单 database section code hadoop hive

sql - hive 中两条记录之间的差异

我有一个包含5列的表，我需要找到前两条记录的计数列差异。我能够根据某些条件获得前两项记录。例如，我的table看起来像:nameaddresscountcurrent_date_timejohnLA1022019-07-1212:24:38peterMAC1052019-07-1212:24:40johnNY2102019-07-1212:24:02johnWD182019-07-1212:24:12选择查询以获取前两行:SELECTcountFROMtable_nameWHEREname="john"ORDERBYcurrent_date_timeDESCLIMIT2它返回如下:co

hive sql code current_date_time section hadoop count

java - 不使用 CachedRowSetImpl.execute() 复制 ResultSet

我正在尝试在执行查询后关闭连接。之前，我只是创建了一个CachedRowSetImpl实例，它会负责为我释放资源。但是，我正在使用Hadoop项目的Hive数据库驱动程序。它不支持CachedRowSetImpl.execute()。我想知道是否有任何其他方法可以让我复制ResultSet对象并关闭连接？最佳答案您可以从现有的ResultSet填充CachedRowSet:publicstaticRowSetexecuteQuery(Stringsql)throwsException{Connectioncon=null;Pre

CachedRowSetImpl ResultSet code section java hadoop hive cachedrowset

hadoop - 如何在将数据加载到配置单元时合并数据？

我正在尝试使用hive来分析我们的日志，我有一个问题。假设我们有这样的数据:111乙1C1乙1我怎样才能在hive表中做到这一点(顺序并不重要，我只是想合并它们)？1乙1C1没有用awk/sed或类似的东西预处理它？谢谢! 最佳答案第1步:为输入数据集创建一个Hive表。如果不存在则创建表table1(fld1string,fld2string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t';(我假设字段分隔符是\t，你可以用实际分隔符替换它)第2步:运行下面得到你要找的合并数据createtab

配置单何在 section table hadoop hive

hadoop - 为什么排序总是使用单个 reducer ？

我正在尝试执行以下查询，加载数据需要很长时间，因为第二个作业只使用了一个reducer。插入表ddb_tableSELECT*FROMdata_dumpsortbyrankdescLIMIT1000000;为上述查询创建了两个作业。第一份工作运行得非常快，因为它使用了80个映射器和大约22个缩减器。第二个作业映射器速度很快，但由于只有一个reducer，它非常慢。我尝试使用setmapred.reduce.tasks=35来增加reducer数量，但有趣的是，它只应用于第一个作业，而不是第二个作业。为什么要使用单个reducer？是因为sortby子句吗？如何设置最大reducer？有

reducer hadoop section 射器 hive

hadoop - 在 Hive 中编写带有 where 子句的嵌套 select 语句

我需要在Hive查询的where子句中进行嵌套选择。示例代码片段如下；选择*来自表AwhereTA_timestamp>(selecttimestmpfromTableBwhereid="hourDim")这是可能的还是我在这里做错了什么，因为我在运行上述脚本时遇到错误？!为了进一步详细说明我正在尝试做的事情，有一个cassandra键空间，我发布了带有时间戳的统计信息。定期(例如每小时)使用hive汇总此统计信息，一旦汇总，数据将与相应的小时分开存储。因此，当查询第二次运行(和连续运行)时，查询应该只在新数据上运行(即-timestamp>previous_execution_tim

编写 hadoop strong section https hive hiveql

join - Hive 中排序合并桶映射连接的输入

我想按照Hive手册(BucketedMapJoin)中的描述使用以下选项执行排序合并连接sethive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;sethive.optimize.bucketmapjoin=true;sethive.optimize.bucketmapjoin.sortedmerge=true;两个表都必须在连接列上分桶和排序。我的问题是-排序是否必须是全局的，即第一个桶中的键小于第二个桶中的键，或者每个桶都排序就足够了吗？最佳答案

中排 join code section strong hadoop map hive bucket

89 90 919293 94 95