草庐IT

HIVE-SQOOP

全部标签

sql-server - Sqoop 导出到 Sql Server VS 批量插入到 SQL Server

我有一个关于ApacheSqoop的独特查询。我已使用apacheSqoop导入工具将数据导入到我的HDFS文件中。接下来,。我需要使用Hadoop(Sqoop)将数据放回另一个数据库(基本上我正在执行从一个数据库供应商到另一个数据库供应商的数据传输)。PutdataintoSqlServer,有两个选项。1)使用Sqoop导出工具连接到我的RDBMS(SQL服务器)并直接导出数据。2)使用copyToLocal命令将HDFS数据文件(CSV格式)复制到我的本地机器,然后对这些CSV文件执行BCP(或批量插入查询)以将数据放入SQL服务器数据库。我想了解哪种方法是完美的(或者更确切地说

hadoop - 最简单的 Hive 查询不起作用

当我尝试获取查询时SELECT*FROMA我得到了所有信息,但是当尝试获取存在列名(或连接)的查询时SELECTaFROMA它返回一些异常:TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatororg.apache.hadoop.ipc.RemoteException:java.io.IOException:File/tmp/hive-merza/hive_2014-06-25_09-12-19_567_6884805431385202274/-mr-1

csv - 使用逗号分隔值和 .csv 或 .txt 文件格式将 Hive 输出到 s3。使用 sqoop 从 hive 导出到 s3 的替代方法也可以使用

我一直在尝试使用hive输出到s3。我在这方面取得了成功,但结果输出不是逗号分隔的,而是有一个分隔符,例如^A我想。我还致力于使用sqoop将数据从s3导入和导出到psql,但我无法在hive上执行此操作,即使我得到了解决方案也可以。我试过的是sethive.io.output.fileformat=CSVTextFile;INSERTOVERWRITEDIRECTORY"s3n://akshayhazari/results"select*frombooks;这是工作:Totaljobs=3LaunchingJob1outof3Numberofreducetasksissetto0si

mongodb - 动态模式的 Hive 表创建

我们正在研究Hive是否允许我们运行一些类似SQL的查询mongo风格的动态模式作为我们map-reduce作业的先驱。数据以几个TiB的BSON文件的形式出现;每个文件包含JSON“样本”。示例示例如下:{"_id":"SomeGUID","SomeScanner":{"B64LR":22,"Version":192565886128245},"Parser":{"Size":73728,"Headers":[{"VAddr":4096,"VSize":7924....etc....作为动态模式,只有少数字段保证存在。我们希望能够针对可能是某物的输入集运行查询喜欢SomeScanne

hadoop - 更改 HIVE 中的目标目录

我正在将一张表从NETEZZA导入HIVE。我在SQOOP命令中明确提到了我的目标目录,但它始终采用默认路径:/user/hive/warehouse如何更改这个默认路径?? 最佳答案 在$HIVE_CONF/conf/hive-site.xml你必须把这个:hive.metastore.warehouse.diryour/directory/in/hdfs然后重启hive。 关于hadoop-更改HIVE中的目标目录,我们在StackOverflow上找到一个类似的问题:

mysql - Sqoop:增量导入问题

我有一个要求,其中我需要从mysql中导入一个表以增量方式配置单元,并且在这样做时遇到了问题。到目前为止,这是我尝试过的:我已经创建了一个作业来使用下面提到的查询导入表。/sqoop作业--createtest2--import--connectjdbc:mysql://URL--usernameusername--passwordpassword--tablemysqlTablename--hive-import--hive-overwrite--direct--incrementallastmodified--check-columnlast_modified_time--last

regex - 使用 RegexSerDe 在 Hive 中创建 DDL 时出错

我有分隔符为“,|”的数据。我按如下方式创建了配置单元DDL:CREATETABLEplayer_profile(player_idBIGINTCOMMENT'PlayerProfileIdentifier',change_tsSTRINGCOMMENT'ChangeDatetime',child_birth_yearINTCOMMENT'ChildBirthYear',countrySTRINGCOMMENT'CountryCode',)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEP

java - Sqoop2 找不到 AuditLoggerManager

我遵循了“说明”here(文档不是很好!)。基本上,我在sqoop.properties和catalina.properties中设置了一堆路径。但是在sqoop.sh服务器启动时,日志显示找不到文件审计记录器类。我复制了一堆jar文件,但仍然没有成功!SEVERE:Exceptionsendingcontextinitializedeventtolistenerinstanceofclassorg.apache.sqoop.server.ServerInitializerjava.lang.RuntimeException:Failureinserverinitializationa

hadoop - 解析日期格式加入hive

我有一个字符串类型的日期字段,格式为:03/11/2001我想将它与另一个字符串格式的列连接起来:1855-05-2512:00:00.0如何在hive中有效地加入两列,忽略第二列的时间部分?我的查询如下所示:LEFTJOINtabel1t1ONtable2.Date=t1.Date 最佳答案 由于您拥有不同格式的日期值,因此您需要对两者使用日期函数,并在连接查询中将其转换为类似格式的日期类型。它会是这样的:LEFTJOINtabel1t1ONunix_timestamp(table2.Date,'yyyy-MM-ddHH:mm:s

hadoop - ESRI Hive ST_Contains 无法正常工作

尝试使用我能找到的JAR(不确定它们是否是最佳选择,我需要使用ESRI并在Hive中执行):ADDJAR/home/user/lib/esri-geometry-api-1.2.1.jar;ADDJAR/home/user/lib/spatial-sdk-hive-1.1.1-SNAPSHOT.jar;ADDJAR/home/user/lib/esri-geometry-api.jar;ADDJAR/home/user/lib/spatial-sdk-hadoop.jar;CREATETEMPORARYFUNCTIONST_PolygonAS'com.esri.hadoop.hive.