草庐IT

hadoop - Oracle Hadoop 连接器与 Sqoop

我使用Sqoop将数据从Oracle提取到Hadoop,并且运行良好。在不使用Sqoop上的分区的情况下,将8600万条记录从Oracle转移到Hive表仅用了4分钟。谁能提供有关OracleHadoop连接器的一些详细信息,它的性能会比Sqoop好吗? 最佳答案 大多数连接器的性能接近于您在工作流程的最后有一组MapReduce作业,这将在您的整体性能中发挥主要作用。Oracle提供了一组不同的连接器来访问Hive,您可以查看关于标准解决方案的一个很好的概述,但我怀疑最终您会期望与Sqoop中看到的性能差异显着:https://d

java - 来自 Java 程序的 Sqoop

我已经阅读了有关在Java程序中使用Sqoop的问题here,here和here.我想到了以下内容,但我被ClassNotFoundException难住了:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.*;importcom.cloudera.sqoop.SqoopOptions;importcom.cloudera.sqoop.SqoopOptions.FileLayout;importcom.mysql.jdbc.*;publicclassSqoopExample{publicstati

oracle - 勺子 : import data from Oracle

我尝试使用Sqoop从Oracle数据库导入数据。我已将OracleJDBC驱动程序(ojdbc6.jar)放入SQOOP_HOME/lib。我的JDK是1.6版本。这是我的查询:sqoopimport--hive-import--connectjdbc:oracle:thin@:1521/db--tableENTITE--usernameusername--passwordpassword但是,当我启动命令时,我得到这个错误:ERRORsqoop.Sqoop:GotexceptionrunningSqoop:java.lang.RuntimeException:Couldnotloa

java - hive JDBC ThriftHive$Client.sendBase

我在Hadoop/hive上工作。我已经安装了hadoop和hive,它们在命令提示符下运行良好。我还创建了hive的MySQL元存储。我在hive-site.xml文件中定义了HIVE-DB数据库名称。同名数据库在MySQL中可用>HIVE-DB。但是在hive命令提示符上创建的表在mysql命令提示符中不可用。当我想创建一个配置单元jdbc连接然后得到以下错误..首先是我的程序创建一个jdbc连接packageaa;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;impo

hadoop - 松鼠访问 Phoenix/HBase

我在hbase0.98/hadoop2.3.0上运行了phoenix4.0,命令行工具给我留下了深刻的印象。在第二步中,我按照网页上的描述使用其捆绑的JDBC驱动程序连接到phoenix。当我尝试连接时,我收到异常消息(在Squirrel端)java.util.concurrent.ExecutionException:java.lang.RuntimeException:java.sql.SQLException:ERROR103(08004):Unabletoestablishconnection.atjava.util.concurrent.FutureTask.report(U

mysql - Oozie - 运行 sqoop : Could not load db driver class: com. mysql.jdbc.Driver 时出现异常

我正在尝试通过Oozie在HDP沙箱2.1上执行sqoop导出。当我运行Oozie作业时,出现以下Java运行时异常。'>>>InvokingSqoopcommandlinenow>>>7598[main]WARNorg.apache.sqoop.tool.SqoopTool-$SQOOP_CONF_DIRhasnotbeensetintheenvironment.Cannotcheckforadditionalconfiguration.7714[main]INFOorg.apache.sqoop.Sqoop-RunningSqoopversion:1.4.4.2.1.1.0-385

hadoop - 是否可以使用 spark 的 jdbc 驱动程序将 apache spark 与 jasper 集成?

我们想使用apachespark进行实时分析?我们目前使用hive/MR进行数据处理,使用mysqlsql存储聚合结果,使用jasper报告进行分析?由于mysql的可伸缩性问题,这种方法远非理想。我们正在探索apachespark在hdfs或cassandra之上运行,唯一的问题是是否有办法让spark与jasper服务器集成?如果不是,还有哪些其他UI选项可以与spark一起使用? 最佳答案 我找到了共享的答案和想法,如果你将hivemetastore与spark一起使用,你可以将RDD持久化为hive表,一旦你这样做了,任何使

hadoop - Fiware Cosmos Hive 授权问题

我正在使用FiwareCosmos的共享实例(意思是我没有root权限)。直到今天,我已经成功地使用jdbc和HiveCLI远程访问和管理了hive中的表。但是现在我在启动HiveCLI时遇到了这个错误:log4j:ERRORCouldnotinstantiateclass[org.apache.hadoop.hive.shims.HiveEventCounter].java.lang.RuntimeException:Couldnotloadshimsinclassorg.apache.hadoop.log.metrics.EventCounteratorg.apache.hadoo

java - 如何在 Hive JDBC 中禁用详细日志记录

有人知道如何禁用日志记录或降低HiveJDBC驱动程序的冗长程度吗?我正在使用hive-jdbc-0.8.1.jar并且我也在远程调试,因此,当查询一个巨大的数据集时,控制台消息的日志记录需要永远。我试图将我的log4java属性设置为仅错误级别:Propertieslog4jProperties=newProperties();log4jProperties.setProperty("log4j.rootLogger","DEBUG,myConsoleAppender");log4jProperties.setProperty("log4j.appender.myConsoleApp

hadoop - Sqoop 导出作业的 sqoop.export.records.per.statement 是否有限制?

有谁知道Sqoop批量导出作业的sqoop.export.records.per.statement的值是否有限制?我有非常大的数据,例如200,000,000行数据要从Impala导出到Vertica。我将得到[Vertica][VJDBC](5065)ERROR:ToomanyROScontainersexistforthefollowingprojections如果recordsperstatement设置得太低,或者java.lang.OutOfMemoryError:GC如果每个语句的记录数设置得太高,则超出开销限制。有人知道如何解决这个问题吗?谢谢!