草庐IT

hive-overwrite

全部标签

sql - HIVE-QL 中的 LEAD 函数语法

有什么方法可以将以下LEAD函数转换为HIVEQL格式??NVL(LEAD(START_DT)OVER(PARTITIONBYEV_ID,AR_EV_RLTNSHP_TYPE_CDORDERBYSTART_DT)-1,'2099-12-31')ASDERIVED_END_DTPFB错误:FAILED:ParseExceptionline1:1599missing)at'OVER'near'('insubquerysourceline1:1603missingFROMat'('near'('insubquerysourceline1:1604cannotrecognizeinputnea

hadoop - 在hive(hadoop)中添加文件后,在仓库中不可见?

我可以像这样在配置单元中添加一个文件:hive>addfile/home/vis/Documents/def.txt;hive>listfiles;/home/vis/Documents/def.txt现在的问题是,上面的文件在我的仓库里是看不到的。是否可以在hive仓库(/user/hive/warehouse)中看到。如果没有,那么我如何在配置单元中看到该文件? 最佳答案 Hiveaddcommandputsthefileindistributedcache.这是mapred.local.dir。分布式缓存旨在分发需要存在于所有

r - R 如何使用 RJDBC 连接到 Hive?

我使用的是hadoop-2.2.0和hive-0.12。我按照以下步骤尝试连接到Rstudio中的Hive:library("DBI")library("rJava")library("RJDBC")for(linlist.files('/PATH/TO/hive/lib/')){.jaddClassPath(paste("/PATH/TO/hive/lib/",l,sep=""))}for(linlist.files('/PATH/TO/hadoop/')){.jaddClassPath(paste("/PATH/TO/hadoop/",l,sep=""))}options(java

hadoop - 将数据从 S3 加载到位于 EMR 中 S3 的外部 Hive 表时出现 "Path is not legal"错误

我有一个运行Hive的EMR集群。我在S3上有一个这样定义的外部表:+-----------------------------------------------------------------+|CREATEEXTERNALTABLE`blah`(||`blah1`string,||`blah2`string)||PARTITIONEDBY(||`blah3`string,||`blah4`string,||ROWFORMATDELIMITED||FIELDSTERMINATEDBY'\t'||STOREDASINPUTFORMAT||'org.apache.hadoop.ma

java - 自定义 InputFormat.getSplits() 从未在 Hive 中调用

我正在编写自定义InputFormat(具体来说,org.apache.hadoop.mapred.FileInputFormat的子类)、OutputFormat和SerDe,用于通过ApacheHive读取的二进制文件。并非二进制文件中的所有记录都具有相同的大小。我发现Hive的默认InputFormatCombineHiveInputFormat没有将getSplits委托(delegate)给我的自定义InputFormat的实现,这会导致所有输入文件按常规128MB边界拆分。这样做的问题是这个拆分可能在记录的中间,所以除了第一个之外的所有拆分很可能看起来有损坏的数据。我已经找

hadoop - Hive 脚本运行时间过长

我正在尝试对大量数据运行配置单元查询。Geocode查找表有一个ip-from和ip-to范围,我必须将其与一个180万行的表进行比较。hive脚本:select*fromip_addressa,ip_lookupbwherea.AddressInt>=b.ip_fromanda.AddressInt在awsEMR上,我正在运行一个c3.xlarge集群,在运行期间它停留在67%超过1天,但这是第1阶段的Hadoop作业信息:Warning:ShuffleJoinJOIN[4][tables=[a,b]]inStage'Stage-1:MAPRED'isacrossproductSta

hadoop - Hive 中的数据集标准化

我需要进行数据标准化,即将我的数据集转换为均值0和标准差1的列。我的数据驻留在配置单元中。hive中是否存在任何函数可以像R中的scale(dataset)一样为我做同样的事情。 最佳答案 据我所知,没有Hive等价于这样的操作。您可以查看此列表HiveoperatorsandUser-DefinedFunctions.如果不存在,您可以创建自己的关于所需操作的UDF;它在链接的末尾进行了描述。 关于hadoop-Hive中的数据集标准化,我们在StackOverflow上找到一个类似的

hadoop - 根据时间戳从 Hive 访问 HBase 表数据

我通过提及默认版本10创建了一个HBasecreate'tablename',{NAME=>'cf',VERSIONS=>10}并插入两行(row1和row2)put'tablename','row1','cf:id','row1id'put'tablename','row1','cf:name','row1name'put'tablename','row2','cf:id','row2id'put'tablename','row2','cf:name','row2name'put'tablename','row2','cf:name','row2nameupdate'put'tabl

hadoop - 您如何验证 Hive Metastore uri

作为应用程序的一部分,我需要验证用户为其Hive输入的Hive元存储Uris。我想知道可以对String执行哪些所有验证以验证它是否是正确的HiveMetastoreURI任何建议。谢谢 最佳答案 hive.metastore.uris指定的MetaStoreuri通常采用以下格式:thrift://n.n.n.n:9083file:///var/metastore/metadb/所以我建议您编写一个正则表达式来匹配可能性,同时请记住hive.metastore.uris属性采用逗号分隔值,以便匹配多次出现。完成基本验证后,您还可以

hadoop - map join 期间本地任务的 Hive 内存设置

我正在使用hdinsight集群(hive版本.13)来运行一些hive查询。在mapjoin期间启动本地任务的查询之一(来自TPCH套件的查询7)由于内存不足而失败(hive中止它,因为哈希表已达到配置的限制)。Hive似乎正在为本地任务分配1GB,这个大小是从哪里获取的,我该如何增加它?2015-05-0305:38:19Startingtolaunchlocaltasktoprocessmapjoin;maximummemory=932184064我假设本地任务应该使用与映射器相同的堆大小,但事实并非如此。感谢您的帮助。 最佳答案