HIVE-SQOOP_草庐IT

concurrency - hive中如何同时提交多个查询

我正在尝试使用CLI提交多个Hive查询，并且我希望这些查询同时运行。但是，这些查询是按顺序运行的。有人能告诉我如何调用多个Hive查询，以便它们实际上并发运行吗？最佳答案这不是因为Hive，它与您的Hadoop配置有关。默认情况下，Hadoop使用一个简单的FIFO队列来提交和执行作业。但是，您可以配置不同的策略，以便可以同时运行多个作业。这是Cloudera在2008年发表的一篇关于此事的精彩博文:JobSchedulinginHadoop几乎所有非默认的调度程序都支持并发作业，所以请选择!

hadoop - 将多个文件添加到 HIVE 中的分布式缓存

我目前在将文件夹内容添加到Hives不可信缓存时遇到问题。我可以使用以下方法成功地将多个文件添加到Hive中的分布式缓存:ADDFILE/folder/file1.ext;ADDFILE/folder/file2.ext;ADDFILE/folder/file3.ext;etc..我还看到有一个ADDFILES(复数)选项，在我看来这意味着您可以指定一个目录，例如:ADDFILES/folder/;以及所有内容包含在文件夹中(这适用于HadoopStreaming-files选项)。但这不适用于Hive。现在我必须明确添加每个文件。我做错了吗？有没有办法将整个文件夹内容存储到分布式缓存

hadoop HIVE code folder section

hadoop - 在 Hive 中编码列

我正在使用Sqoop将一个表从mysql导入到hive。有些列是latin1编码的。有什么办法可以做到:在Hive中将这些列的编码设置为latin1。或者在使用sqoop导入时将列转换为utf-8？最佳答案在Hive中--default-character-set用于设置整个数据库的字符集，而不是特定于少数列。我无法找到Sqoop参数，该参数会将表列快速转换为utf-8，而列应该设置为固定类型。$sqoopimport--connectjdbc:mysql://server.foo.com/db--tablebar\--dire

hadoop Hive section utf-8 mysql sqoop

mysql - 为什么 sqoop 在从配置单元导出到 mysql 期间在数字列的 NumberFormatException 上失败

我有简单的配置单元查询INSERTOVERWRITEDIRECTORY'/tmp/test'SELECTflight,SUM(CASEWHENev=2THEN1ELSE0END)ASreqfromdata_tablegroupbyflight;输出看起来不错(在编辑器中用^A分隔)两个数字列。我已经创建了mysql表createtablehive_table(flint,evsint);最后想用sqoop把hdfs的数据导出到mysqlsqoopexport--connectjdbc:mysql://mysqlhost/dwh--usernameuser--passwordpasswo

配置单 mysql java code table hadoop hive sqoop

sql-server - Oozie Sqoop 作业

我正在尝试将sqoop作业作为oozie操作运行。我将MySQL作为jobtracker节点上的元存储。我在某处读到ooziesqoop无法通过导入创建配置单元表。所以我试图将数据转储到hdfs中。现在还是这样吗？我检查了共享库。我正在尝试从MSSQL数据库中获取Sqoop。当我运行不需要来自shell的元存储的sqoop命令时，它可以工作。sqoopimport--connect'jdbc:sqlserver://host;username=sqoopimport;password=password;database=db1'--tablet1--target-dir/user/ro

sql-server server sqoop apache java hadoop oozie

sql - 生成 map 的 Hive 聚合函数

我有以下配置单元表ID、类、值1,A,0.31,B,0.41,C,0.52,B,0.12,C,0.2我想得到ID，类:值1,[A:0.3,B:0.4,C:0.5]2,[B:0.1,C:0.2]我知道有一个collect_set()UDAF可以生成类列表或值列表，是否可以获取键值对列表？注意:我想我可以使用两个collect_set()，一个用于类列，一个用于值列，但我不确定列表的顺序是否相同。最佳答案我使用Brickhouse库中的UnionUDAF来做类似的事情。您从每一对创建一个映射，然后在聚合过程中将它们联合在一起。Add

Hive sql code section collect hadoop

java - 如何在 Hive JDBC 中禁用详细日志记录

有人知道如何禁用日志记录或降低HiveJDBC驱动程序的冗长程度吗？我正在使用hive-jdbc-0.8.1.jar并且我也在远程调试，因此，当查询一个巨大的数据集时，控制台消息的日志记录需要永远。我试图将我的log4java属性设置为仅错误级别:Propertieslog4jProperties=newProperties();log4jProperties.setProperty("log4j.rootLogger","DEBUG,myConsoleAppender");log4jProperties.setProperty("log4j.appender.myConsoleApp

何在 java log4 log log4j jdbc hadoop hive

hadoop - 如何从本地磁盘而不是 HDFS 上的数据在 Hive 上创建外部表？

对于HDFS上的数据，我们可以做CREATEEXTERNALTABLE{idINT,nameSTRING,ageINT}LOCATION'hdfs_path';但是如何为上面的LOCATION指定本地路径呢？谢谢。最佳答案您可以先使用“hdfsdfs-put”将文件上传到HDFS，然后在其上创建Hive外部表。Hive无法在本地文件上创建外部表的原因是，当Hive处理数据时，实际处理发生在Hadoop集群上，您的本地文件可能根本无法访问。关于hadoop-如何从本地磁盘而不是HDF

hadoop HDFS section Hive stackoverflow cloudera cloudera-cdh impala

hadoop - 配置 Hive 以本地模式运行

您好，我正在尝试以本地模式运行Hive，我已经设置了HIVE_OPTS环境变量exportHIVE_OPTS='-hiveconfmapred.job.tracker=local-hiveconffs.default.name=file://///hivelocal/tmp-hiveconfhive.metastore.warehouse.dir=file://///hivelocal/warehouse-hiveconfjavax.jdo.option.ConnectionURL=jdbc:derby:;databaseName=//hivelocal/metastore_db;cr

hadoop Hive code strong hivelocal mapreduce hiveql

hadoop - Sqoop 导出作业的 sqoop.export.records.per.statement 是否有限制？

有谁知道Sqoop批量导出作业的sqoop.export.records.per.statement的值是否有限制？我有非常大的数据，例如200,000,000行数据要从Impala导出到Vertica。我将得到[Vertica][VJDBC](5065)ERROR:ToomanyROScontainersexistforthefollowingprojections如果recordsperstatement设置得太低，或者java.lang.OutOfMemoryError:GC如果每个语句的记录数设置得太高，则超出开销限制。有人知道如何解决这个问题吗？谢谢!

statement records section code hadoop jdbc sqoop vertica