hive-overwrite

hadoop - 在一个表上运行选择时 Hive 锁定整个数据库

当在数据库中的任何表上运行select语句时，HIVE0.13将共享锁定整个数据库(我在Zookeeper中看到像LOCK-0000000000这样的节点是数据库节点的子节点)。即使在运行select语句时，HIVE也会在整个模式上创建共享锁-这会导致卡住数据库中其他表上的CREATE/DELETE语句，直到原始查询完成并释放锁。有人知道解决这个问题的方法吗？以下链接建议关闭并发，但我们不能这样做，因为我们要替换整个表，我们必须确保在替换整个内容之前没有select语句正在访问该表。http://mail-archives.apache.org/mod_mbox/hive-user/2

hadoop - Hive 不识别 Thorn 字符定界符

如帖子UsingtheIcelandicThorncharacterasadelimiterinHive中所述Hive无法识别刺字符定界符示例表如果不存在则创建外部表zzzzz_raw(spot_idINT,activity_type_idINT,事件类型STRING，activity_id整数，activity_sub_typeSTRING,报告名称STRING，tag_method_idINT)分区依据(dt日期)行格式分隔的字段由'\-2'终止的行由'\n'终止存储为文本文件位置'/raw/data/networkmatchtablesactivity/activity_cat'

hadoop Thorn STRING activity section encoding hive

java - R Hive 安装问题和故障排除

我正在尝试使用R进行分布式文本挖掘。第一步是让Hive在本地机器上运行R。所以我执行了以下步骤:在本地机器上安装了Hadoop在本地机器上启动了R。并安装了rJava和Hive我遇到的主要问题是R的rJava和Hive使用的Java库与Hadoop使用的不同。rJavausesjava-6-openjdkhadoopusesjava-6-sun你遇到过这个问题吗？有线索吗？最佳答案你为什么不使用Rhipe？这是一个更好的选择...看看这个http://groups.google.com/group/brumail/browse_

java Hive section thread r hadoop

python - 使用 sum(if...) 或条件语句操作两个数据集，这些语句与 Hive Hadoop Python 没有共同的标识符

我正在尝试对地理ip定位的准确性进行分析，并且有两个非常大的数据集可以根据ip地址到ip整数或ip_number(s)的转换来处理。转换过程如下ip_number=16777216*w+65536*x+256*y+z(1)在哪里IPAddress=w.x.y.z我使用Hive在Hadoop中构建了我的两个表:表1是2.9MM行，并组织到由ip_number(s)范围标识的地理位置。字段读出:start_ip,end_ip,zipcode,citystart_ip是给定邮政编码的最小ip_number，end_ip是最大ip_number。此表是ip_num桶或范围的索引以及我需要从具有

共同 python code ip_number ip hadoop hive

hadoop - 有人在不使用 EMR 的情况下使用 DynamoDB 和 Hive 吗？

我正在阅读以下使用Hive在DynamoDB上查询数据的集成。http://aws.typepad.com/aws/2012/01/aws-howto-using-amazon-elastic-mapreduce-with-dynamodb.html但是根据该链接，需要在EMR之上设置Hive。但我想知道我是否可以将此集成与我已有的独立Hadoop集群一起使用，而不是使用EMR。有没有人这样做过？与使用EMR相比，DynamoDB和HDFS中的数据之间是否会发生同步问题？最佳答案为了能够在您自己的集群上使用它，您需要为Dynam

DynamoDB hadoop section strong 自定 amazon-dynamodb elastic-map-reduce

java - 从mapreduce解析并写入日志数据到hive

我编写了一个小型hadoop映射程序来从其他应用程序生成的日志文件中解析(正则表达式)信息。我找到了这篇文章http://www.nearinfinity.com//blogs/stephen_mouring_jr/2013/01/04/writing-hive-tables-from-mapreduce.html本文讲解如何解析写入hive表这是我的代码importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;imp

mapreduce java hiveRow hadoop String hive

json - 在嵌套的 JSON 上创建 Hive 表

我正在尝试根据我在hadoop中的一些JSON数据在配置单元中创建一个表。困难的部分是我有一个嵌套的JSON，其中数据没有在键:值对中明确定义:{"trafficSource":{"source":"(direct)","medium":"(none)"},"device":{"browser":"(notset)","browserVersion":"(notset)","operatingSystem":"(notset)","operatingSystemVersion":"(notset)","isMobile":false,"flashVersion":"(notset)",

json 34 section hadoop hive

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版，我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时，它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

yarn-cluster cluster java apache org hadoop apache-spark hive hadoop-yarn hortonworks-data-platform

hadoop - Hive 不在 HDFS 中存储仓库

我已经在我的本地系统上下载了hive安装并将hive-site.xml复制到Sparkconf目录中。我尝试使用sparkshell在Hive上下文中创建一个托管表。我在hive-site.xml中放置了以下属性(存在于spark的conf目录中):hive.metastore.warehouse.dir/user/hive/warehouse此外，我已将HADOOP_HOME放入spark-env.sh中:exportHADOOP_CONF_DIR=/opt/hadoop/conf根据Hive文档，Hive仓库应该存储在HDFS中，但仓库存储在本地驱动器(/user/hive/war

hadoop Hive section code warehouse hdfs

hadoop - 插入覆盖目录的 Hive Case 语句

当尝试使用以下逻辑运行HQL脚本时，我收到错误:ParseExceptionline4:0cannotrecognizeinputnear'CASE''WHEN''mytable'inserdepropertiesspecification脚本逻辑INSERTOVERWRITEDIRECTORY'/example/path'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','CASEWHEN${hiveconf:tbl_name}='mytable'THENSELECT*FROM${hiveconf:tbl_name}LEFTOUTERJOIN...;WHEN

hadoop Hive tbl_name 39 hiveconf parameters case hiveql

68 69 707172 73 74