草庐IT

hadoop - mapreduce框架写入什么拆分元信息文件

我在mapreduce作业中收到以下错误:Jobinitializationfailed:java.io.IOException:Splitmetadatasizeexceeded10000000.Abortingjobjob_201511121020_1680atorg.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)atorg.apache.hadoop.mapred.JobInProgress.createSplits(JobInProg

hadoop - 加入 : space available is below the configured reserved amount 的配置单元查询

我在单节点集群上使用hive执行sql查询,我收到此错误:MapReduceJobsLaunched:Stage-Stage-20:HDFSRead:4456448HDFSWrite:0FAILTotalMapReduceCPUTimeSpent:0msec在日志http://localhost:50070/logs/hadoop-hadoop-namenode-hadoop.log中,可用空间似乎低于配置的保留量:org.apache.hadoop.hdfs.server.namenode.NameNodeResourceChecker:Spaceavailableonvolume'

mysql - 配置单元错误 : FAILED: SemanticException [Error 10017]: Line 4:28 Both left and right aliases encountered in JOIN 'status_cd'

我在HIVE中有以下查询,它抛出“FAILED:SemanticException[错误10017]:第4:28行在JOIN'status_cd'中遇到左右别名”错误。整个查询似乎是正确的,我在MYSQL中也执行了类似的查询,它工作正常。仅在Hive中它会抛出错误。HIVE中是否存在导致问题的任何限制。请查看以下查询,我们将不胜感激。INSERTINTOTABLEstg_dim_gate_packageSELECT`16_1693_418`.`package_id`AS`6896_package_id`,`16_1723_432`.`status_cd`AS`7075_status_c

hadoop - 配置单元中的任何列限制

这个问题在这里已经有了答案:MaximumNumberofColumnsinHiveExternalTables(1个回答)关闭6年前。我创建了一些包含超过800列的表。但我只看到大约500列的值。有没有限制或者有什么其他原因?

hadoop - 配置单元解释计划生成

正如我们所知,hive中的解释后跟查询为我们提供了该查询的解释计划作为输出,是否有可能以任何形式的数据结构而不是文本格式获取解释计划? 最佳答案 我认为您可以使用FORMATTED获取JSON格式的输出。你可以试试:EXPLAINFORMATTED查询这应该为您提供JSON格式的解释输出。 关于hadoop-配置单元解释计划生成,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/50

hadoop - 配置单元,请求特定范围内的文件

假设在HDFS上我有包含以下内容的文件:data1-2018-01-01.txt,data1-2018-01-02.txt,data1-2018-01-03.txt,data1-2018-01-04.txt,data1-2018-01-06.txt现在我想根据日期查询文件:select*frommytablewheredate>2018-01-03anddate我的问题是:是否可以仅在满足我的查询的这些文件上创建一个外部表?或者,也许您有任何解决方法?我知道,我可以使用分区,但它们需要在新数据集到达时手动获取数据。 最佳答案 将这些

hadoop - 配置单元 get_json_object() : How to check if JSON field exists?

我正在使用Hive和get_json_object()函数来查询存储为JSON的数据。JSON有一个coordinate键和两个字段(纬度和经度),如下所示:"coordinate":{"center":{"lat":36.123413127558536,"lng":-115.17381648045654},"precision":10}我正在运行Hive查询以检索某个地理坐标框中的数据,如下所示:INSERTOVERWRITELOCALDIRECTORY'/home/user.name/sample/sample1.txt'SELECT*FROMmytableWHEREget_jso

hadoop - 如何使用配置单元拆分 url

我有一些像这样的url:foo.netabcd.comhttp://www.abc.com/video/ygrefhcbauklyhttp://xyz.com/video/lwriey/ew4defparse_url((url),'HOST')我尝试了上面的配置单元UDF,我得到这样的o/p:/N/Nwww.abc.comxyz.com我也想显示前2个url。如何为以下o/p编写配置单元脚本?foo.netabcd.comabc.comxyz.com 最佳答案 有几个选项你可以试试a)您可以使用case语句。当parse_url((

hadoop - 如何使用配置单元脚本删除 AWS 中 S3 存储桶中的 000000 文件

我创建了一个有效的配置单元脚本来将数据从dynamodb备份到AWS中S3存储桶中的文件。代码片段如下所示INSERTOVERWRITEDIRECTORY'${hiveconf:S3Location}'SELECT*FROMDynamoDBDataBackup;当我运行hive脚本时,它可能会删除旧文件并创建一个新文件,但如果备份过程中出现错误,我猜它会回滚到旧数据,因为发生错误时文件仍然存在。每天我们都想做一个备份,但我需要知道是否发生了错误,所以我想先删除前几天的备份,然后再创建一个备份。如果失败,则文件夹中没有我们可以自动检测到的文件。文件名自动命名为000000在我的配置单元脚

hadoop - 如何使用配置单元获取表a中不在表b中的所有元素?

如何在Hive中获取A表中B表中没有的所有条目?tableA=jobs(id,duration)tableB=other_jobs(id,duration)我想要A中没有出现在B中的所有工作,每个工作都有一个唯一的ID像这样的图片说明:http://codinghorror.typepad.com/.a/6a0120a85dcdae970b012877702754970c-pi谢谢! 最佳答案 答案是:SELECTjobs.*FROMjobsLEFTOUTERJOINother_jobsON(jobs.id=other_jobs.i