master-data-management

sql-server - 勺子 : Truncate SQL Server table before exporting data from Hadoop

我们正在使用Sqoop将数据从配置单元导出到SQLServer。新数据始终附加到SQLServer中的现有数据。是否可以在开始导出之前通过Sqoop截断SQLServer表？最佳答案您可以使用sqoopeval在数据库上执行任意SQL。这将允许您在不“离开”Sqoop的情况下截断表。例如:sqoopeval--connect'jdbc:sqlserver://1.1.1.1;database=SomeDatabase;username=someUser;password=somePassword'--query"TRUNCATE

勺子 sql-server section Server sqoop hadoop

hadoop - "Got error creating database manager"- sqoop 导入查询出错

场景:我正在尝试从sqlserver导入到HDFS，但出现以下错误:错误:hadoop@ubuntu:~/sqoop-1.1.0/bin$./sqoopimport--connect'jdbc:sqlserver://192.168.230.1;username=xxx;password=xxxxx;database=HadoopTest'--tablePersonInfo--target-dir/home/hadoop/hadoop-0.21.0/11/12/1012:13:20ERRORtool.BaseSqoopTool:Goterrorcreatingdatabasemanag

amp creating sqoop cloudera hadoop

hadoop - 亚马逊 EC2 和 S3 : How to read and write data

我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是，我实际上如何在我的集群上运行的hbase中获取我的数据？我需要将它加载到S3中然后加载到我的hbase集群中吗？是否有加载/提取数据的最佳实践？由于我是EC2的新手，因此我将不胜感激。最佳答案您需要通过SSH连接到您的一个节点，

hadoop write section hbase amazon-s3 amazon-ec2

memory-management - HBase MemStore 和垃圾收集

我是HBase的新手，但我已经设置好HBase和Hadoop并了解一些相关知识。当我研究HBaseMemStore时，我对MemStore的全部了解是“MemStore是HBase放置必须写入或读取的数据的内存位置”。所以，这就是为什么我们想在何时何地阅读有关memstore的内容时，我们也会看到有关垃圾收集的讨论。现在我的问题是，memstore的唯一目的是在内存中保存可读和可写的数据吗？我们可以调整该内存的大小以获得hbase的快速回复吗？垃圾收集配置(收集器配置)会影响内存库吗？我认为应该是的。:) 最佳答案关于HbaseM

memory-management management section HBase memstore hadoop

hadoop - hbase.master.port 以编程方式覆盖？

我从cloudera5.3.3发行版安装了hbase，当我运行hbase时，一切似乎都运行良好......当我尝试通过/etc/hbase/conf/hbase-site.xml分配hbase.master.port时，它不会从那里选择它。我从主节点信息中看到这个http://MASTERNODE:60010/confhbase.master.port0programaticallyhbase分布:0.98.6-cdh5.3.3这个“以编程方式”是什么意思，我如何禁用/覆盖它？最佳答案回答我自己的问题:(因为我刚刚发现hbase

hadoop master hbase cloudera section

hadoop - master节点的"start-all.sh"和"start-dfs.sh"不启动slave节点服务？

我已经用我的从节点的主机名更新了Hadoop主节点上的/conf/slaves文件，但是我无法从主节点启动从节点。我必须单独启动从站，然后我的5节点集群启动并运行。如何使用主节点的单个命令启动整个集群？此外，SecondaryNameNode正在所有从节点上运行。那是问题吗？如果是这样，我怎样才能将它们从奴隶中移除？我认为一个集群中应该只有一个SecondaryNameNode和一个NameNode，对吗？谢谢! 最佳答案在ApacheHadoop3.0中使用$HADOOP_HOME/etc/hadoop/workers文件每行添

amp start section SecondaryNameNode stackoverflow hadoop hdfs namenode hadoop3

hadoop - Hbase master 没有正确启动

我正在使用Hadoop2.4.0/Hbase0.98.0/Hive0.14.0在我重新启动HMaster之前，Hadoop和HBase运行良好。hbase-hduser-master-master.log文件中出现以下错误:2015-02-1705:46:15,157INFO[master:master:60000]master.TableNamespaceManager:Namespacetablenotfound.Creating...2015-02-1705:46:15,193DEBUG[master:master:60000]lock.ZKInterProcessLockBas

hadoop master 60000 hbase

hadoop - 使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR

我正在尝试使用yarn运行Spark，但我遇到了这个错误:线程“main”中的异常java.lang.Exception:当使用master'yarn'运行时，必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR。我不确定“环境”在哪里(具体是什么文件？)。我尝试使用:exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexportYARN_CONF_DIR=$HADOOP_HOME/etc/hadoop在bash_profile中，但这似乎没有帮助。最佳答案在使用Ya

中设 CONF HADOOP section code apache-spark

hadoop - 获取 Master 未运行异常

我一直在努力让Hbase在我的机器上工作。我相信我的设置有问题，我无法修复它。我收到masternotrunning错误，但Jsp清楚地显示它正在运行。启动Hadoop和Hbase之后。我做了JPSyeshwanthvenkatesh@mymachineip/usr/local/Cellar/hbase/0.94.4/bin(master)$jps1609Main715DataNode985TaskTracker614NameNode886JobTracker1463HRegionServer1263HQuorumPeer814SecondaryNameNode16951349HMas

hadoop Master hbase gt property

authentication - 从 Spark 访问 Hdfs 会出现 token 缓存错误 Can't get Master Kerberos principal for use as renewer

我正在尝试运行测试Spark脚本以将Spark连接到hadoop。脚本如下frompysparkimportSparkContextsc=SparkContext("local","SimpleApp")file=sc.textFile("hdfs://hadoop_node.place:9000/errs.txt")errors=file.filter(lambdaline:"ERROR"inline)errors.count()当我用pyspark运行它时，我得到了py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo21.

authentication principal hadoop apache scala kerberos apache-spark

408 409 410411412 413 414