草庐IT

test_hive

全部标签

python - 使用 sum(if...) 或条件语句操作两个数据集,这些语句与 Hive Hadoop Python 没有共同的标识符

我正在尝试对地理ip定位的准确性进行分析,并且有两个非常大的数据集可以根据ip地址到ip整数或ip_number(s)的转换来处理。转换过程如下ip_number=16777216*w+65536*x+256*y+z(1)在哪里IPAddress=w.x.y.z我使用Hive在Hadoop中构建了我的两个表:表1是2.9MM行,并组织到由ip_number(s)范围标识的地理位置。字段读出:start_ip,end_ip,zipcode,citystart_ip是给定邮政编码的最小ip_number,end_ip是最大ip_number。此表是ip_num桶或范围的索引以及我需要从具有

hadoop - 有人在不使用 EMR 的情况下使用 DynamoDB 和 Hive 吗?

我正在阅读以下使用Hive在DynamoDB上查询数据的集成。http://aws.typepad.com/aws/2012/01/aws-howto-using-amazon-elastic-mapreduce-with-dynamodb.html但是根据该链接,需要在EMR之上设置Hive。但我想知道我是否可以将此集成与我已有的独立Hadoop集群一起使用,而不是使用EMR。有没有人这样做过?与使用EMR相比,DynamoDB和HDFS中的数据之间是否会发生同步问题? 最佳答案 为了能够在您自己的集群上使用它,您需要为Dynam

java - 从mapreduce解析并写入日志数据到hive

我编写了一个小型hadoop映射程序来从其他应用程序生成的日志文件中解析(正则表达式)信息。我找到了这篇文章http://www.nearinfinity.com//blogs/stephen_mouring_jr/2013/01/04/writing-hive-tables-from-mapreduce.html本文讲解如何解析写入hive表这是我的代码importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;imp

json - 在嵌套的 JSON 上创建 Hive 表

我正在尝试根据我在hadoop中的一些JSON数据在配置单元中创建一个表。困难的部分是我有一个嵌套的JSON,其中数据没有在键:值对中明确定义:{"trafficSource":{"source":"(direct)","medium":"(none)"},"device":{"browser":"(notset)","browserVersion":"(notset)","operatingSystem":"(notset)","operatingSystemVersion":"(notset)","isMobile":false,"flashVersion":"(notset)",

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版,我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时,它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

hadoop - Hive 不在 HDFS 中存储仓库

我已经在我的本地系统上下载了hive安装并将hive-site.xml复制到Sparkconf目录中。我尝试使用sparkshell在Hive上下文中创建一个托管表。我在hive-site.xml中放置了以下属性(存在于spark的conf目录中):hive.metastore.warehouse.dir/user/hive/warehouse此外,我已将HADOOP_HOME放入spark-env.sh中:exportHADOOP_CONF_DIR=/opt/hadoop/conf根据Hive文档,Hive仓库应该存储在HDFS中,但仓库存储在本地驱动器(/user/hive/war

hadoop - 插入覆盖目录的 Hive Case 语句

当尝试使用以下逻辑运行HQL脚本时,我收到错误:ParseExceptionline4:0cannotrecognizeinputnear'CASE''WHEN''mytable'inserdepropertiesspecification脚本逻辑INSERTOVERWRITEDIRECTORY'/example/path'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','CASEWHEN${hiveconf:tbl_name}='mytable'THENSELECT*FROM${hiveconf:tbl_name}LEFTOUTERJOIN...;WHEN

解决Hive在DataGrip 中注释乱码问题

注释属于元数据的一部分,同样存储在mysql的metastore库中,如果metastore库的字符集不支持中文,就会导致中文显示乱码。不建议修改Hive元数据库的编码,此处我们在metastore中找存储注释的表,找到表中存储注释的字段,只改对应表对应字段的编码。如下两步修改,缺一不可。(1)修改mysql元数据库我们用到的注释有两种:字段注释和整张表的注释。COLUMNS_V2表中的COMMENT字段存储了Hive表所有字段的注释,TABLE_PARAMS表中的PARAM_VALUE字段存储了所有表的注释。我们可以通过命令修改字段编码,也可以用DataGrip或Navicat等工具修改,此

hadoop - 有没有办法在将数据从 HIVE 移动到 ES 时跳过 ES 中的行插入?

我正在尝试使用以下查询将数据(超过3亿行)从配置单元表复制到Elasticsearch:-插入覆盖表TableNameESselect*fromHiveTableName;&在插入一些行后我得到了这个异常。我知道这是因为ES中映射的数据类型不同...Causedby:org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest:Foundunrecoverableerror[xx.xx.xx.xx:9200]returnedBadRequest(400)-[MapperParsingException[failedtoparse[pctbla

hadoop - Hive 查询在 Tez 上无限运行

下面是我尝试在Hive上运行的查询,执行引擎为tez。SELECTA.CITY,A.NAME,B.PRICE,(ROW_NUMBER()OVER(PARTITIONBYA.NAMEORDERBYB.PRICE))ASRNUMFROMTABLE1ALEFTJOINTABLE2BONA.NAME=B.NAMEWHERE(A.COLUMN2>=B.COLUMN3ANDA.COLUMN2当我在Hive中对我的数据运行上述查询时,它会持续运行数小时没有任何结果,但在句法上上述查询是正确的。TABLEA和TABLEB都有数百万条记录。我尝试过更改数据格式、增加容器大小、更改reducer的数量以及