test_hive

php - 在 PHP 中通过 Hive/Thrift 查询数据库不起作用

我正在尝试通过PHP中的Hive/Thrift查询数据库。但是，我不断收到错误消息:TSocket:timedoutreading4bytesfromXYZ我正在使用来自的代码https://cwiki.apache.org/Hive/hiveclient.html#HiveClient-PHP连同这个PHPThrift客户端https://github.com/garamon/php-thrift-hive-client我的代码:setSendTimeout(30*1000);$socket->setRecvTimeout(30*1000);$transport=newTBuffer

中通 Thrift section https code php database hadoop hive

hadoop - 确认为特定 Hive 表启用了压缩

我需要对一系列表格进行基准测试，有些是压缩的，有些不是。我通过设置压缩:hive>SEThive.exec.compress.output=true;hive>SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;...并使用INSERTOVERWRITE填充表。有没有办法通过命令行(类似于DESCRIBEEXTENDED)确认为特定表启用了输出压缩？最佳答案当您执行describeformattedorc_with_compre

认为 hadoop section code https hive

hadoop - Hive 查询不使用索引

我正在分析使用索引对hive表的影响。我创建了一个包含5列的表(COL1、COL2、COL3、COL4、COL5)并在其中加载了100000行。我还在该表的COL1上创建了一个索引。我在COL1上运行了带有WHERE子句的select*，这是一个索引列。与在创建索引之前运行相同的查询相比，我发现查询运行时间没有任何改进。我对我的选择查询做了一个EXPLAIN，它显示的是TableScan而不是IndexScan，我无法弄清楚为什么它没有使用索引。请帮忙。最佳答案可以查看this和this但基本上是这样的；创建索引在表中创建索引.

hadoop Hive code section

hadoop - Hive 操作失败，主类 [org.apache.oozie.action.hadoop.HiveMain]，退出代码 [40000]

我是这方面的新手，所以我完全有可能错过一些基本的东西。我正在尝试运行从协调器启动的Oozie工作流。协调器等待文件出现在目录中。工作流包含运行此脚本的Hive操作:CREATEexternalTABLEIFNOTEXISTSdaily_dump(idbigint,creationdatetimestamp,datelastupdatedtimestamp,data1string,data2string)LOCATION'/data/daily_dump';FROMdaily_dumpdINSERTOVERWRITETABLEmydata_orcPARTITION(id,datelast

hadoop HiveMain PerfLogger apache hive oozie

hadoop - Hive 中的过滤数组

Apache配置单元表具有以下列定义:myvars:array>对应数据的例子是:"myvars":[{"index":2,"value":"value1"},{"index":1,"value":"value2"},{"index":2,"value":"value3"}]这个数组如何过滤到所有"index"==2的元素。在JavaScript中我会做类似下面的事情:myvars.filter(function(d){returnd.index==2;})如何使用ApacheHiveQL实现相同的结果，最好是没有横向View？最佳答案

hadoop Hive section 34 code hiveql

java - 在 EMR 上启动 Hive thrift 服务器时出错

在下面的代码中，我试图从spark启动一个hivethrift服务器:valconf=newSparkConf().setAppName("HiveDemo")valsc=newSparkContext(conf)valsql=newHiveContext(sc)sql.setConf("hive.server2.thrift.port","10001")valdf=sql.read.parquet("s3n://...")df.registerTempTable("test")HiveThriftServer2.startWithContext(sql)while(true){Thr

时出 thrift code section noreferrer java hadoop amazon-web-services hive

hadoop - 无法加载 Hive 分区表中的数据

我使用以下查询在Hive中创建了一个表:createtableifnotexistsemployee(CASE_NUMBERString,CASE_STATUSString,CASE_RECEIVED_DATEDATE,DECISION_DATEDATE,EMPLOYER_NAMESTRING,PREVAILING_WAGE_PER_YEARBIGINT,PAID_WAGE_PER_YEARBIGINT,order_nint)partitionedby(JOB_TITLE_SUBGROUPSTRING)rowformatdelimitedfieldsterminatedby',';我尝

hadoop Hive code JOB_TITLE_SUBGROUP section

hadoop - Hive - 在多行上拆分分隔列，根据位置选择

我正在寻找一种基于逗号分隔数据拆分列的方法。下面是我的数据集idcol1col215,67,8我要得到结果idcol1col2157168索引的位置应该匹配，因为我需要相应地获取结果。我尝试了以下查询，但它返回了笛卡尔积。查询:SELECTcol3,col4FROMtestextlateralVIEWexplode(split(col1,'\002'))col1AScol3lateralVIEWexplode(split(col2,'\002'))col2AScol4结果:idcol1col2157158167168 最佳答案您可

多行 hadoop col code section hive hiveql

Hadoop架构、Hive相关知识点及Hive执行流程

Hadoop架构Hadoop由三大部分组成:HDFS、MapReduce、yarnHDFS：负责数据的存储其中包括： namenode：主节点，用来分配任务给从节点 secondarynamenode：副节点，辅助主节点 datanode：从节点，负责实际的存储MapReduce：负责计算其中Map负责分解，reduce负责合并yarn：负责资源调度其中包括： resourcemanager：负责接收用户的请求，并负责集群的管理和资源调度 nodemanager：负责执行resourcemanager分配的任务Hive相关知识点元数据:用来描述数据的数据。元数据包

知识点 Hive strong 数据 xff hadoop

hadoop - hive 如何处理插入内部分区表？

我需要将记录流插入到Hive分区表中。表结构是这样的CREATETABLEstore_transation(item_namestring,item_countint,bill_numberint,)PARTITIONEDBY(yyyy_mm_ddstring);我想了解Hive如何处理内部表中的插入。是否所有记录都插入到单个文件中yyyy_mm_dd=2018_08_31目录？或者Hive在一个分区内拆分为多个文件，如果是什么时候？如果每天有100万条记录并且查询模式将在日期范围之间，那么以下哪一个表现良好？内表没有分区按日期划分，每个日期只有一个文件按日期划分，每个日期有多个文件

何处 hadoop section code stackoverflow hive hdfs hiveql hive-partitions

134 135 136137138 139 140