草庐IT

SQOOP_CONF_DIR

全部标签

hadoop - sqoop,选择特定的列

在sqoop语句中,是否有规定我们只能从oracle端选择特定的列?1:有效sqoopimport--target-dir/tmp/customers--query"SELECT*FROMschema1.customerswhereitem>=1234and\$CONDITIONS"--connectjdbc:oracle:thin:@server1.companyxyz.com:4567/prod--usernamexyz--passwordxyz--hive-drop-import-delims-m8--fields-terminated-by,--escaped-by\\--sp

hadoop - 如何使用 sqoop 在 Hive 中创建外部表。需要建议

使用sqoop我可以创建托管表但不能创建外部表。请告诉我从数据仓库卸载数据并将其加载到Hive外部表的最佳实践是什么。1.仓库中的表是分区的。有些按日期分区,有些按状态分区。请将您的想法或实践用于生产环境。 最佳答案 Sqoop不支持创建Hive外部表。相反,您可能会:使用Sqoopcodegen命令生成用于创建与您的远程RDBMS表匹配的Hive内部表的SQL(参见http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_literal_sqoop_codegen_litera

hadoop - sqoop 服务器启动失败

我正在尝试连接到本地主机上的sqoop服务器:sqoop:000>setserver--hostmanager--port12000--webappsqoopServerissetsuccessfullysqoop:000>showversion-allclientversion:Sqoop1.99.6sourcerevision07244c3915975f26f03d9e1edf09ab7d06619bb8CompiledbyrootonWedApr2910:40:43CST20150[main]WARNorg.apache.hadoop.util.NativeCodeLoader-

hadoop - 我们可以通过多列组合拆分 Sqoop 作业吗

我使用以下Sqoop语法按单列[主要是主键]拆分Sqoop作业。sqoopimport--connectjdbc:oracle:thin:@//oracle_server:1521/sid--usernamexxx--passwordxxx--tableEMPLOYEE--split-byID-m10如果没有主键来拆分Sqoop作业,我们可以使用多列组合吗?sqoopimport--connectjdbc:oracle:thin:@//oracle_server:1521/sid--usernamexxx--passwordxxx--tableEMPLOYEE--split-byFIR

hadoop - 尝试使用 Sqoop 将数据从 Cassandra 传输到 Hadoop 时出错

我使用tarball安装了Cassandra-2.2.7。Cassandra运行良好,我在键空间中创建了表。现在我想将这个表数据传输到HDFS中。我正在使用Sqoop-1.4.6。我将以下库文件保存在$SQOOP_HOME/lib/下,apache-cassandra-2.2.7.jarapache-cassandra-thrift-2.2.7.jarcassandra-jdbc-1.2.5.jarcassandra-all-1.2.0.jarlibthrift-0.8.0.jarthrift-server-0.3.7.jar然后我运行命令,bin/sqooplist-tables--

hadoop - 水槽的 Spool Dir 可以在远程机器上吗?

每当新文件到达特定文件夹时,我都试图从远程机器获取文件到我的hdfs。我在flume中遇到了spooldir的概念,如果spooldir在运行flumeagent的同一台机器上,它工作正常。有什么方法可以在远程机器上配置假脱机目录吗??请帮忙。 最佳答案 您可能知道flume可以产生多个实例,即您可以安装多个flume实例,这些实例在它们之间传递数据。所以回答你的问题:不,水槽不能访问远程假脱机目录。但是你可以安装两个代理,一个在有spool目录的机器上,一个在hadoop节点上。第一个将从假脱机中读取并通过avrorpc将其传递给

hadoop - oozie Sqoop 操作无法将数据导入配置单元

我在执行ooziesqoop操作时遇到问题。在日志中,我可以看到sqoop能够将数据导入临时目录,然后sqoop创建配置单元脚本来导入数据。将临时数据导入配置单元时失败。在日志中我没有收到任何异常。下面是我正在使用的sqoopAction。hcat.metastore.uri${HIVE_THRIFT_URL}hcat.metastore.principal${KERBEROS_PRINCIPAL}${jobTracker}${nameNode}/tmp/hive-oozie-site.xmloozie.hive.defaults/tmp/hive-oozie-site.xmljob-

sql-server - 如何使用 Sqoop 将数据从关系数据库导入沙箱 Hive?

如何使用Sqoop将数据从关系数据库导入沙盒中的Hive。我在我的电脑上安装了HortonWorks沙箱。Nw我想知道这个迁移。我已经引用了这个链接http://hortonworks.com/kb/using-apache-sqoop-for-data-import-from-relational-dbs/但我有些疑惑1、运行需要Sqoop软件吗?2,在上面提到的链接中有一些代码,我将把这段代码放在哪里?在Hive查询窗口中?3、是否可以完全迁移数据库(或仅按时间表迁移)?4、存储过程和Viwes我将把所有这些都保存在哪里? 最佳答案

python - spark 1.3.0、python、avro 文件、在 spark-defaults.conf 中设置的驱动程序类路径,但从属设备看不到

我正在使用带有python的spark1.3.0。我有一个使用以下命令读取avro文件的应用程序:conf=NonerddAvro=sc.newAPIHadoopFile(fileAvro,"org.apache.avro.mapreduce.AvroKeyInputFormat","org.apache.avro.mapred.AvroKey","org.apache.hadoop.io.NullWritable",KeyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",

hadoop - Sqoop Import to Hive 在某个点无限期挂起

我正在尝试使用SqoopImport将mysql表导入Hive,但是在执行命令后,CLI保持平静,没有任何反应,并且无限期挂起。下面是命令和问题的详细信息..[cloudera@quickstartbin]$sqoopcreate-hive-table--connectjdbc:mysql://10.X.X.XX:XXXX/rkdb--usernameroot-P--tableemployee--hive-tableempsWarning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$A