SQOOP_CONF_DIR

hadoop - Spark 提交 YARN 方式 HADOOP_CONF_DIR 内容

我正在尝试在YARN模式下使用sparksubmit在hadoop集群上启动spark任务。我正在从我的开发机器上启动spark-submit。根据RunningSparkOnYARN文档，我应该在环境变量HADOOP_CONF_DIR或YARN_CONF_DIR上提供hadoop集群配置的路径。这就是它变得棘手的地方:如果我将任务发送到远程YARN服务，为什么这些文件夹必须存在于我的本地机器上？这是否意味着spark-submit必须位于集群内部，因此我无法远程启动spark任务？如果没有，我应该用什么填充这些文件夹？是否应该从任务管理器服务所在的YARN集群节点复制hadoop配置

hadoop - 使用Sqoop导入时如何使用指定的Hive数据库

sqoopimport--connectjdbc:mysql://remote-ip/db--usernamexxx--passwordxxx--tabletb--hive-import上述命令将表tb导入“default”Hive数据库。我可以改用其他数据库吗？最佳答案我记得你可以指定--hive-tablefoo.tb其中foo是您的配置单元数据库，tb是您的配置单元表。所以在你的情况下会是:sqoopimport--connectjdbc:mysql://remote-ip/db--usernamexxx--passwor

入时 hadoop section code 配置单 hive sqoop

hadoop - mysql的sqoop导入问题

我有一个基于cdh5的hadoopha设置。我尝试使用sqoop从mysql导入表失败并出现以下错误。15/03/2012:47:53ERRORmanager.SqlManager:Errorreadingfromdatabase:java.sql.SQLException:Streamingresultsetcom.mysql.jdbc.RowDataDynamic@33573e93isstillactive.Nostatementsmaybeissuedwhenanystreamingresultsetsareopenandinuseonagivenconnection.Ensur

hadoop mysql section result hive hbase sqoop

oracle - 运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用Sqoop1.4.2版和Oracle数据库。运行Sqoop命令时。例如像这样:./sqoopimport\--fs\--jt\--connect\--username--password\--table--split-by\--target-dir\--verbose--m2我们可以指定--m-我们希望Sqoop运行多少个并行任务(它们也可能同时访问数据库)。相同的选项可用于./sqoopexport是否有一些启发式(可能基于数据大小)有助于猜测使用的最佳任务数？谢谢! 最佳答案这摘自O'ReillyMedia的Apac

射器 oracle section strong Sqoop hadoop mapreduce hdfs

Hadoop dfs -ls 返回我的 hadoop/dir 中的文件列表

我在Win7下设置了一个通过cygwin运行的单节点Hadoop配置。通过bin/start-all.sh启动Hadoop之后我跑bin/hadoopdfs-ls它返回我的hadoop目录中的文件列表。然后我运行bin/hadoopdatanode-formatbin/hadoopnamenode-format但是-ls仍然返回我的hadoop目录的内容。据我所知，它应该什么都不返回(空文件夹)。我做错了什么？最佳答案您是否编辑了conf文件夹下的core-site.xml和mapred-site.xml？您的hadoop集群似

Hadoop section code hdfs

hadoop - sqoop导入多个表

我们正在使用ClouderaCDH4，我们能够按预期将表从我们的Oracle数据库导入我们的HDFS仓库。问题是我们的数据库中有成千上万个表，而sqoop一次只支持导入一个表。将多个表导入HDFS或Hive有哪些选项？例如，一次将200个表从oracle导入HDFS或Hive的最佳方法是什么？到目前为止，我看到的唯一解决方案是为每个表导入创建一个sqoop作业，然后单独运行它们。由于Hadoop旨在处理大型数据集，因此似乎应该有更好的方法。最佳答案您可以使用“import-all-tables”选项一次将所有表加载到HDFS中。

hadoop sqoop section tables hive hdfs

java - 设置类路径后包 org.apache.hadoop.conf 不存在

我是hadoop的初学者，使用hadoop的初学者指南作为教程。我使用的是macosx10.9.2和hadoop版本1.2.1当我在终端中调用echo$PATH时，我已经设置了所有适当的类路径:这是我得到的结果:/Library/Frameworks/Python.framework/Versions/2.7/bin:/Users/oladotunopasina/hadoop-1.2.1/hadoop-core-1.2.1.jar:/Users/oladotunopasina/hadoop-1.2.1/bin:/usr/share/grails/bin:/usr/share/groov

apache hadoop oladotunopasina java javac word-count hadoop-plugins

java - SQOOP SQLSERVER 无法加载驱动程序 "appropriate connection manager is not being set"

我下载了sqljdbc4.jar.我正在调用sqoop就像从文件夹(存储jar的地方)一样:sqooplist-tables--drivercom.microsoft.jdbc.sqlserver.SQLServerDriver--connectjdbc:sqlserver://localhost:1433;user=me;password=myPassword;-libjars=./sqljdbc4.jar我收到以下警告和错误:13/10/2518:38:13WARNsqoop.ConnFactory:Parameter--driverissettoanexplicitdriverh

appropriate connection sqoop code java sql-server jdbc hadoop

hadoop - Apache Spark-SQL 与 Sqoop 基准测试，同时将数据从 RDBMS 传输到 hdfs

我正在处理一个用例，我必须将数据从RDBMS传输到HDFS。我们已经使用sqoop完成了这个案例的基准测试，发现我们能够在6-7分钟内传输大约20GB的数据。当我尝试使用SparkSQL时，性能非常低(1Gb的记录需要4分钟才能从netezza传输到hdfs)。我正在尝试进行一些调整并提高其性能，但不太可能将其调整到sqoop的水平(1分钟内大约3Gb的数据)。我同意spark主要是一个处理引擎这一事实，但我的主要问题是spark和sqoop都在内部使用JDBC驱动程序，所以为什么性能差异如此之大(或者我可能遗漏了一些东西)。我在这里发布我的代码。objecthelloWorld{de

Spark-SQL hadoop 34 option section apache-spark-sql sqoop bigdata

hadoop - 如何使用 sqoop 导出默认的配置单元分隔输出？

我有一个配置单元查询:insertoverridedirectory/xselect...然后我尝试用sqoop导出数据sqoopexport--connectjdbc:mysql://mysqlm/site--usernamesite--passwordsite--tablex_data--export-dir/x--input-fields-terminated-by0x01--lines-terminated-by'\n'但这似乎无法根据分隔符解析字段我错过了什么？我认为--input-fields-terminated-by0x01部分没有按预期工作？我不想在包含查询结果的配置

配置单 hadoop A0 section code hive sqoop

93 94 959697 98 99