HIVE-SQOOP_草庐IT

hadoop - 将vertica数据导入sqoop

我正在将vertica数据注入(inject)mapr集群上的sqoop1。我使用以下查询:sqoopimport-m1--drivercom.vertica.jdbc.Driver--connect"jdbc:vertica://*******:5433/db_name"--password"password"--username"username"--table"schemaName.tableName"--columns"id"--target-dir"/t"--verbose这个查询给我一个错误Causedby:com.vertica.util.ServerException:

vertica hadoop 34 section jdbc sqoop

hadoop - hdfs snapshot可以用来恢复hive吗

知道hive使用metastore和hdfs，是否可以将从正在运行的hadoop-hive集群获取的hdfs快照恢复到新的hadoop-hive集群？我认为必须执行的一个步骤是在hive中再次创建表，但是这些表会自动连接到快照文件吗？有关此主题的一个链接位于ApacheMailArchives.我希望对此是否有更新或更好的答案。最佳答案 Hive使用2(元数据+hdfs中的仓库数据)试一试:(没查过，请注意)1)使用dstcp将当前Hadoop-hiveCluster中的hive仓库数据复制到新的Hadoop-hiveCluste

snapshot 用来 section hive hadoop

hadoop - 带参数的 Hive UDF

我想编写一个可以接受常量参数的自定义UDF(UDAF/UDTF)。比如我要写一个函数MAX(COL,i)，其中COL是求最大值的集合，i是位置(即i=1，求最大值，i=2，找到第二高等)，使得Hive查询看起来像:SELECTMAX(value,2)FROMtable;这不仅适用于MAX，所以我需要一种能够执行此操作的通用方法，因此无法从已排序的集合中进行排序和选择。最佳答案您可以使用ConstantObjectInspectors获取作为参数传递的常量值。在GenericUDF的initialize()方法或GenericUD

hadoop Hive section ConstantObjectInspector code apache-pig user-defined-functions user-defined-aggregate

hadoop - Hive 中的范围分区

Hive是否支持范围分区？我的意思是hive是否支持如下内容:insertoverwritetabletable2PARTITION(employeeIdBETWEEN2001and3000)selectemployeeNameFROMemp10whereemployeeIdBETWEEN2001and3000;其中table2和emp10有两列:员工姓名&员工编号当我运行上面的查询时，我遇到了一个错误:FAILED:ParseExceptionline1:56mismatchedinput'BETWEEN'expecting)near'employeeId'indestination

hadoop Hive section strong employeeId

【Hive】——DQL

1SELECT1.1语法从哪里查询取决于FROM关键字后面的table_reference。可以是普通物理表、视图、join结果或子查询结果。[WITHCommonTableExpression(,CommonTableExpression)*]SELECT[ALL|DISTINCT]select_expr,select_expr,...FROMtable_reference[WHEREwhere_condition][GROUPBYcol_list][ORDERBYcol_list][CLUSTERBYcol_list|[DISTRIBUTEBYcol_list][SORTBYcol_lis

mdash Hive span class token hadoop 数据仓库

hadoop - 在 Hive 表中插入覆盖分区 - 值重复

我创建了一个包含非分区表的Hive表，并使用选择查询将数据插入到分区Hive表中。Referedsite通过上面的链接，我的分区表包含重复值。以下是设置这是我的示例员工数据集:link1我尝试了以下查询:link2但是在更新Hive表中的值之后，将EmployeeID为19的Steven的薪水更新为50000。INSERTOVERWRITETABLEUnm_Parti_TrailPARTITION(Department='A')SELECTemployeeid,firstname,designation,CASEWHENemployeeid=19THEN50000ELSEsalaryE

hadoop Hive strong section Unm_Parti_Trail external

hadoop - 使用 Sqoop 将 RDBMS 更新到 HDFS

我正在尝试编写一个sqoop作业来实现以下要求。我有一个XYZ表，每天可能会创建大约100万条新记录和50万条更新。我将有一个EndofdaySqoop作业，它应该将增量数据从XYZ获取到HDFS，还获取更新的记录并将其与HDFS同步。我很乐意实现第1点，但找不到第2点的可行解决方案。请帮忙!!!!谢谢，拉古最佳答案对于这种特殊情况，您可以在需要的地方执行增量sqooplastmodified–check-columnlast_modified_col–last-value“2014-10-0315:29:48.66″示例查询请

hadoop Sqoop strong section 万条

hadoop - SQOOP 连接参数文件格式

在SqoopforHadoop中，您可以使用参数文件获取连接字符串信息。--connection-param-filefilenameOptionalpropertiesfilethatprovidesconnectionparameters那个文件的格式是什么？比如说我有:jdbc:oracle:thin:@//myhost:1521/mydb在参数文件中应该如何设置？最佳答案如果您想提供数据库连接字符串和凭据，请创建一个包含这些详细信息的文件并在您的sqoop命令中使用--options-file创建一个包含以下详细信息的文

hadoop SQOOP section code strong parameters connection-string

arrays - 将数据加载到 Hive 数组列

我有两个Hive表及其列，如下所示Tbl_CustomerIdNameTbl_CntctIdPhone一个Id可以有多个电话号码所以我有一张表Tbl_AllIdNamePhn_ListARRAY我的问题是如何将数据从Tbl_Custome和Tbl_Cntct加载到Tbl_All。我可以在PIG中执行此操作，但想在Hive中执行同样的操作。谢谢最佳答案 InsertoverwritetableTbl_Allselectcus.id,cus.name,collect_set(ctc.phone)fromTbl_Customercusj

arrays Hive section code Tbl hadoop

hadoop - Hive中如何使用DistCp直接将数据转表？

我正在使用DistCp将数据从集群1复制到集群2。我成功地将表数据从集群1复制到集群2。但是，使用hdfs，数据已发送到文件浏览器。是否有任何直接的方法可以通过使用DistCp命令将此hdfs数据转换为Hive表(包括数据类型、分隔符等)？我当然可以查询它以从hdfs收集数据，但是我必须将它们一个接一个地转换。试图寻找有效的方法。谢谢!示例:hadoopdistcphdfs://nn1:8020/source/ahdfs://nn1:8020/source/bhdfs://nn2:8020/destination 最佳答案还没有找

hadoop DistCp section hdfs lt bigdata