草庐IT

HIVE-SQOOP

全部标签

concurrency - hive中如何同时提交多个查询

我正在尝试使用CLI提交多个Hive查询,并且我希望这些查询同时运行。但是,这些查询是按顺序运行的。有人能告诉我如何调用多个Hive查询,以便它们实际上并发运行吗? 最佳答案 这不是因为Hive,它与您的Hadoop配置有关。默认情况下,Hadoop使用一个简单的FIFO队列来提交和执行作业。但是,您可以配置不同的策略,以便可以同时运行多个作业。这是Cloudera在2008年发表的一篇关于此事的精彩博文:JobSchedulinginHadoop几乎所有非默认的调度程序都支持并发作业,所以请选择!

hadoop - 将多个文件添加到 HIVE 中的分布式缓存

我目前在将文件夹内容添加到Hives不可信缓存时遇到问题。我可以使用以下方法成功地将多个文件添加到Hive中的分布式缓存:ADDFILE/folder/file1.ext;ADDFILE/folder/file2.ext;ADDFILE/folder/file3.ext;etc..我还看到有一个ADDFILES(复数)选项,在我看来这意味着您可以指定一个目录,例如:ADDFILES/folder/;以及所有内容包含在文件夹中(这适用于HadoopStreaming-files选项)。但这不适用于Hive。现在我必须明确添加每个文件。我做错了吗?有没有办法将整个文件夹内容存储到分布式缓存

hadoop - 在 Hive 中编码列

我正在使用Sqoop将一个表从mysql导入到hive。有些列是latin1编码的。有什么办法可以做到:在Hive中将这些列的编码设置为latin1。或者在使用sqoop导入时将列转换为utf-8? 最佳答案 在Hive中--default-character-set用于设置整个数据库的字符集,而不是特定于少数列。我无法找到Sqoop参数,该参数会将表列快速转换为utf-8,而列应该设置为固定类型。$sqoopimport--connectjdbc:mysql://server.foo.com/db--tablebar\--dire

mysql - 为什么 sqoop 在从配置单元导出到 mysql 期间在数字列的 NumberFormatException 上失败

我有简单的配置单元查询INSERTOVERWRITEDIRECTORY'/tmp/test'SELECTflight,SUM(CASEWHENev=2THEN1ELSE0END)ASreqfromdata_tablegroupbyflight;输出看起来不错(在编辑器中用^A分隔)两个数字列。我已经创建了mysql表createtablehive_table(flint,evsint);最后想用sqoop把hdfs的数据导出到mysqlsqoopexport--connectjdbc:mysql://mysqlhost/dwh--usernameuser--passwordpasswo

sql-server - Oozie Sqoop 作业

我正在尝试将sqoop作业作为oozie操作运行。我将MySQL作为jobtracker节点上的元存储。我在某处读到ooziesqoop无法通过导入创建配置单元表。所以我试图将数据转储到hdfs中。现在还是这样吗?我检查了共享库。我正在尝试从MSSQL数据库中获取Sqoop。当我运行不需要来自shell的元存储的sqoop命令时,它可以工作。sqoopimport--connect'jdbc:sqlserver://host;username=sqoopimport;password=password;database=db1'--tablet1--target-dir/user/ro

sql - 生成 map 的 Hive 聚合函数

我有以下配置单元表ID、类、值1,A,0.31,B,0.41,C,0.52,B,0.12,C,0.2我想得到ID,类:值1,[A:0.3,B:0.4,C:0.5]2,[B:0.1,C:0.2]我知道有一个collect_set()UDAF可以生成类列表或值列表,是否可以获取键值对列表?注意:我想我可以使用两个collect_set(),一个用于类列,一个用于值列,但我不确定列表的顺序是否相同。 最佳答案 我使用Brickhouse库中的UnionUDAF来做类似的事情。您从每一对创建一个映射,然后在聚合过程中将它们联合在一起。Add

java - 如何在 Hive JDBC 中禁用详细日志记录

有人知道如何禁用日志记录或降低HiveJDBC驱动程序的冗长程度吗?我正在使用hive-jdbc-0.8.1.jar并且我也在远程调试,因此,当查询一个巨大的数据集时,控制台消息的日志记录需要永远。我试图将我的log4java属性设置为仅错误级别:Propertieslog4jProperties=newProperties();log4jProperties.setProperty("log4j.rootLogger","DEBUG,myConsoleAppender");log4jProperties.setProperty("log4j.appender.myConsoleApp

hadoop - 如何从本地磁盘而不是 HDFS 上的数据在 Hive 上创建外部表?

对于HDFS上的数据,我们可以做CREATEEXTERNALTABLE{idINT,nameSTRING,ageINT}LOCATION'hdfs_path';但是如何为上面的LOCATION指定本地路径呢?谢谢。 最佳答案 您可以先使用“hdfsdfs-put”将文件上传到HDFS,然后在其上创建Hive外部表。Hive无法在本地文件上创建外部表的原因是,当Hive处理数据时,实际处理发生在Hadoop集群上,您的本地文件可能根本无法访问。 关于hadoop-如何从本地磁盘而不是HDF

hadoop - 配置 Hive 以本地模式运行

您好,我正在尝试以本地模式运行Hive,我已经设置了HIVE_OPTS环境变量exportHIVE_OPTS='-hiveconfmapred.job.tracker=local-hiveconffs.default.name=file://///hivelocal/tmp-hiveconfhive.metastore.warehouse.dir=file://///hivelocal/warehouse-hiveconfjavax.jdo.option.ConnectionURL=jdbc:derby:;databaseName=//hivelocal/metastore_db;cr

hadoop - Sqoop 导出作业的 sqoop.export.records.per.statement 是否有限制?

有谁知道Sqoop批量导出作业的sqoop.export.records.per.statement的值是否有限制?我有非常大的数据,例如200,000,000行数据要从Impala导出到Vertica。我将得到[Vertica][VJDBC](5065)ERROR:ToomanyROScontainersexistforthefollowingprojections如果recordsperstatement设置得太低,或者java.lang.OutOfMemoryError:GC如果每个语句的记录数设置得太高,则超出开销限制。有人知道如何解决这个问题吗?谢谢!