HIVE-QL

hadoop - Hive中如何使用DistCp直接将数据转表？

我正在使用DistCp将数据从集群1复制到集群2。我成功地将表数据从集群1复制到集群2。但是，使用hdfs，数据已发送到文件浏览器。是否有任何直接的方法可以通过使用DistCp命令将此hdfs数据转换为Hive表(包括数据类型、分隔符等)？我当然可以查询它以从hdfs收集数据，但是我必须将它们一个接一个地转换。试图寻找有效的方法。谢谢!示例:hadoopdistcphdfs://nn1:8020/source/ahdfs://nn1:8020/source/bhdfs://nn2:8020/destination 最佳答案还没有找

java - 使用 Java API 从 Hive 中获取表属性

我正在尝试使用Java中的Metastore客户端从HiveMetastore中获取表属性，如表数据库、名称、所有者和hdfs位置。我想我可以得到表数据库和名称，但我不知道如何获取所有者和hdfs位置之类的东西。可能吗？我已经在文档和互联网上搜索了几个小时，但一无所获。最佳答案可能是这样的:org.apache.hadoop.hive.metastore.api.Tabletable=..........;org.apache.hadoop.hive.metastore.api.StorageDescriptorsd=table

java apache section hive api hadoop metastore

hadoop - $SPARK_HOME 中包含的 hive-site.xml 是什么样的？

我是hive的初学者，当我启动spark作业并从hive读取数据时发生了一些事情(找不到表)。我没有在$SPARK_HOME/conf中设置hive-site.xml吗？提交spark作业命令在这里bin/spark-submit--masterlocal[*]--driver-memory8g--executor-memory8g--classcom.ctrip.ml.client.Client/root/GitLab/di-ml-tool/target/di-ml-tool-1.0-SNAPSHOT.jar 最佳答案在您的Hi

中包 SPARK_HOME section hive AdminManualConfiguration-hive-sit hadoop apache-spark

hadoop - 使用 Apache Drill Embedded 连接到 EMR 上的 Hive

我正在尝试以嵌入式模式在ApacheDrill1.4上进行实验，并尝试连接到在EMR上运行的Hive-Drill在EMR外部的服务器上运行。我有一些基本问题需要澄清，还有一些配置问题需要修复。这是我目前所拥有的-运行AWSEMR集群。运行DrillEmbedded服务器。根据有关为Hive配置存储插件的文档，https://drill.apache.org/docs/hive-storage-plugin/，我对是否使用RemoteMetastore或EmbeddedMetastore感到困惑。有什么区别？接下来，我的EMR集群正在运行，这里是hive-site.xml的样子-hive

Embedded hadoop 34 metastore hive jdbc emr apache-drill

java - Hive:如何计算时差

我的需求很简单，如何计算hive中两列之间的时间差示例Time_Start:10:15:00Time_End:11:45:00Ineedtodo(Time_End-Time_Start)=1:30:00注意这两列都是字符串数据类型，请帮助获得所需的结果.. 最佳答案 Languagemanual包含所有可用日期时间函数的描述。秒差可以这样计算:hour(time_end)*3600+minute(time_end)*60+second(time_end)-hour(time_start)*3600-minute(time_start

java Hive strong section time hadoop apache-pig bigdata

hadoop - 很少有 Hive 面试问题

我最近在一家公司的面试中遇到了一些问题。由于我是Hadoop的新手，谁能告诉我正确答案？问题:Hive中“排序依据”和“分组依据”之间的区别。它们是如何工作的？如果我们在Hive中的任何SQL查询中使用“限制1”，Reducer是否工作。如何优化Hive性能？“内表”和“外表”的区别Hive和SQL的主要区别是什么请提供一些有用的资源，以便我可以更好地学习。谢谢最佳答案 PFB的答案:1。Hive中“排序依据”和“分组依据”之间的区别。它们是如何工作的？答。SORTBY按reducer对数据进行排序，它提供了reducer中行的排

少有 hadoop Hive section li hiveql hadoop2 hadoop-streaming

hadoop - Spark Thriftserver 未连接到正确的 Hive 数据库

我正在运行一个SparkThriftServer，这样我就可以对存储在Hive表中的数据执行SparkSQL命令。当我启动beeline以显示我当前的表格时:user@mn~$beeline!connectjdbc:hive2://mn:10000showtables;+------------+--------------+--+|tableName|isTemporary|+------------+--------------+--++------------+--------------+--+输出显示我的数据库中没有表。但是，如果我使用(已弃用的)CLIhive，我会得到不同

Thriftserver hadoop gt lt property apache-spark hive apache-spark-sql

java - 如何将数据插入 Hive 2 中的复杂数据类型 “Struct”

这是表的结构CREATETABLEwarehouse(timetimestamp,personstruct,activitystruct,casestruct);表创建没有问题，问题是如何向表中插入数据。我正在尝试类似的方法，但它不起作用INSERTINTOTABLEwarehouseVALUES('2018-05-31'),SELECTNAMED_STRUCT('id',1,'name','Alex','organization','CITI')ASperson,SELECTNAMED_STRUCT('id',1,'name','Buy')ASactivity,SELECTNAMED

Struct ldquo 39 organization string java hadoop hive

sql - 如何在 HIVE 中查找以前的日期

我想在Hive中查找之前的日期。例如:我的日期为20180821(yyyyMMdd)格式，我想在Hive中查找此日期的前一个日期。我尝试了date_sub()函数，似乎它只适用于yyyy-MM-dd格式。如何解决我的问题。请帮忙最佳答案除了已经提供的带有unix_timestamp转换的解决方案外，还请考虑这个。使用substr()的相同转换看起来有点长，但它适用于任何日期/时间戳，如'1969123119:00:00'而没有TZ问题，也这并不慢，因为没有使用SimpleDateFormat/etc也没有应用TZ。date_su

何在 HIVE code section 20180821 sql date hadoop hiveql

sql - 如何在 Hive 中生成所有 n-gram

我想使用HiveQL创建一个n-gram列表。我的想法是使用具有先行和拆分功能的正则表达式-但是这不起作用:selectsplit('Thisismysentence','(\\S+)+(?=(\\S+))');输入的是表格的一列|sentence||-------------------------||Thisismysentence||Thisisanothersentence|输出应该是:["Thisis","ismy","mysentence"]["Thisis","isanother","anothersentence"]Hive中有一个n-gramudf，但该函数直接计算n

中生何在 sentence code 34 sql hadoop hive hiveql n-gram

62 63 646566 67 68