test_hive_草庐IT

hadoop - Hive 脚本运行时间过长

我正在尝试对大量数据运行配置单元查询。Geocode查找表有一个ip-from和ip-to范围，我必须将其与一个180万行的表进行比较。hive脚本:select*fromip_addressa,ip_lookupbwherea.AddressInt>=b.ip_fromanda.AddressInt在awsEMR上，我正在运行一个c3.xlarge集群，在运行期间它停留在67%超过1天，但这是第1阶段的Hadoop作业信息:Warning:ShuffleJoinJOIN[4][tables=[a,b]]inStage'Stage-1:MAPRED'isacrossproductSta

hadoop - Hive 中的数据集标准化

我需要进行数据标准化，即将我的数据集转换为均值0和标准差1的列。我的数据驻留在配置单元中。hive中是否存在任何函数可以像R中的scale(dataset)一样为我做同样的事情。最佳答案据我所知，没有Hive等价于这样的操作。您可以查看此列表HiveoperatorsandUser-DefinedFunctions.如果不存在，您可以创建自己的关于所需操作的UDF；它在链接的末尾进行了描述。关于hadoop-Hive中的数据集标准化，我们在StackOverflow上找到一个类似的

hadoop Hive section stackoverflow

hadoop - 根据时间戳从 Hive 访问 HBase 表数据

我通过提及默认版本10创建了一个HBasecreate'tablename',{NAME=>'cf',VERSIONS=>10}并插入两行(row1和row2)put'tablename','row1','cf:id','row1id'put'tablename','row1','cf:name','row1name'put'tablename','row2','cf:id','row2id'put'tablename','row2','cf:name','row2name'put'tablename','row2','cf:name','row2nameupdate'put'tabl

hadoop HBase 39 tablename row hive cloudera hortonworks-data-platform

hadoop - 您如何验证 Hive Metastore uri

作为应用程序的一部分，我需要验证用户为其Hive输入的Hive元存储Uris。我想知道可以对String执行哪些所有验证以验证它是否是正确的HiveMetastoreURI任何建议。谢谢最佳答案 hive.metastore.uris指定的MetaStoreuri通常采用以下格式:thrift://n.n.n.n:9083file:///var/metastore/metadb/所以我建议您编写一个正则表达式来匹配可能性，同时请记住hive.metastore.uris属性采用逗号分隔值，以便匹配多次出现。完成基本验证后，您还可以

Metastore hadoop section code hive bigdata

hadoop - map join 期间本地任务的 Hive 内存设置

我正在使用hdinsight集群(hive版本.13)来运行一些hive查询。在mapjoin期间启动本地任务的查询之一(来自TPCH套件的查询7)由于内存不足而失败(hive中止它，因为哈希表已达到配置的限制)。Hive似乎正在为本地任务分配1GB，这个大小是从哪里获取的，我该如何增加它？2015-05-0305:38:19Startingtolaunchlocaltasktoprocessmapjoin;maximummemory=932184064我假设本地任务应该使用与映射器相同的堆大小，但事实并非如此。感谢您的帮助。最佳答案

hadoop Hive section code https azure-hdinsight

hadoop - 如何在 Hive 的 SELECT 语句中提取定界值右侧的字符

我需要提取“/”右侧的所有字符作为选择语句的一部分。cityAmerica/ChicagoEurope/London预期输出是citynameChicagoLondon这是我的查询，它不起作用selectsubstring(city,charindex('/',city)+1,length(city))ascitynamefromtable; 最佳答案您可以使用正则表达式来提取城市名称。使用正则表达式，您的查询将是这样的。selectregexp_extract(city,'([a-zA-Z]+)',1)fromtable_nam

何在 hadoop code section pre hive

hadoop - 在 Hive 中授予权限

我正在尝试使用HortonworksSandboxHDP2.2作为单节点系统在Hive14.0上设置授予权限。这个问题类似于3月份未回答的问题:grantpermissionsinhivedoesnotworkonhdp2.2.我遵循了aHive-Wiki的配置步骤.登录到hiveshell(使用root的ssh)后，我尝试了:CREATEROLEtesting;FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.Failedtoretrieverolesforroot:Metastor

授予权 hadoop hive property gt hortonworks-data-platform metastore

Hadoop - Hive 2 ParseException - 无法识别表达式规范中 'over' '(' 'partition' 附近的输入

自从升级到Hive2后，我查询中的这一行失败了FAILED:ParseExceptionline41:50cannotrecognizeinputnear'over''(''partition'inexpressionspecificationselecttempTable.*,(tempTable.rowrank-1)/(max(tempTable.tableRowRank))over(partitionbytempTable.column1)percent这在HiveServer1中工作正常???????? 最佳答案刚刚解决了

amp 39 tempTable section partition hadoop hive

c# - 如何在查询中将 .net DateTime.Ticks 转换为 Hive DateTime？

我的日志文件在DateTime.Ticks(635677577653488758)中有一个列，我正在尝试将其转换为HadoopHive中的日期。首先，我在MySql上尝试了下面的代码块，它成功了。但是相同的代码在Hive中不起作用，因为date_add函数适用于INT。SELECTDATE_ADD('2001-01-0100:00:00',INTERVAL(MAX(f.date)-631139040000000000)/10MICROSECOND);然后我会这样格式化...SELECTDATE_FORMAT(MyDateFromTicks,'%Y-%m-%dT%T.%fZ');我怎样才

DateTime c#section code pre hadoop hive amazon-emr

hadoop - 使用 EsStorageHandler 在 Hive 中创建外部表时出错

我在创建外部表以将数据从Hive推送到ElasticSearch时遇到错误。到目前为止我做了什么:1)ElasticSearch-1.4.4设置成功并运行。2)Hadoop1.2.1搭建成功，所有守护进程都启动并运行。3)成功设置Hive-0.10.0。4)在Hadoop/lib和Hive/lib中配置elasticsearch-hadoop-1.2.0.jar。p>5)在Hive中成功创建了几个内部表。执行以下命令时出现错误:CREATEEXTERNALTABLEdrivers_external(idBIGINT,firstnameSTRING,lastnameSTRING,vehi

时出中创 strong elasticsearch hadoop hive