master-data-management
全部标签 我们正在使用Sqoop将数据从配置单元导出到SQLServer。新数据始终附加到SQLServer中的现有数据。是否可以在开始导出之前通过Sqoop截断SQLServer表? 最佳答案 您可以使用sqoopeval在数据库上执行任意SQL。这将允许您在不“离开”Sqoop的情况下截断表。例如:sqoopeval--connect'jdbc:sqlserver://1.1.1.1;database=SomeDatabase;username=someUser;password=somePassword'--query"TRUNCATE
场景:我正在尝试从sqlserver导入到HDFS,但出现以下错误:错误:hadoop@ubuntu:~/sqoop-1.1.0/bin$./sqoopimport--connect'jdbc:sqlserver://192.168.230.1;username=xxx;password=xxxxx;database=HadoopTest'--tablePersonInfo--target-dir/home/hadoop/hadoop-0.21.0/11/12/1012:13:20ERRORtool.BaseSqoopTool:Goterrorcreatingdatabasemanag
我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是,我实际上如何在我的集群上运行的hbase中获取我的数据?我需要将它加载到S3中然后加载到我的hbase集群中吗?是否有加载/提取数据的最佳实践?由于我是EC2的新手,因此我将不胜感激。 最佳答案 您需要通过SSH连接到您的一个节点,
我是HBase的新手,但我已经设置好HBase和Hadoop并了解一些相关知识。当我研究HBaseMemStore时,我对MemStore的全部了解是“MemStore是HBase放置必须写入或读取的数据的内存位置”。所以,这就是为什么我们想在何时何地阅读有关memstore的内容时,我们也会看到有关垃圾收集的讨论。现在我的问题是,memstore的唯一目的是在内存中保存可读和可写的数据吗?我们可以调整该内存的大小以获得hbase的快速回复吗?垃圾收集配置(收集器配置)会影响内存库吗?我认为应该是的。:) 最佳答案 关于HbaseM
我从cloudera5.3.3发行版安装了hbase,当我运行hbase时,一切似乎都运行良好......当我尝试通过/etc/hbase/conf/hbase-site.xml分配hbase.master.port时,它不会从那里选择它。我从主节点信息中看到这个http://MASTERNODE:60010/confhbase.master.port0programaticallyhbase分布:0.98.6-cdh5.3.3这个“以编程方式”是什么意思,我如何禁用/覆盖它? 最佳答案 回答我自己的问题:(因为我刚刚发现hbase
我已经用我的从节点的主机名更新了Hadoop主节点上的/conf/slaves文件,但是我无法从主节点启动从节点。我必须单独启动从站,然后我的5节点集群启动并运行。如何使用主节点的单个命令启动整个集群?此外,SecondaryNameNode正在所有从节点上运行。那是问题吗?如果是这样,我怎样才能将它们从奴隶中移除?我认为一个集群中应该只有一个SecondaryNameNode和一个NameNode,对吗?谢谢! 最佳答案 在ApacheHadoop3.0中使用$HADOOP_HOME/etc/hadoop/workers文件每行添
我正在使用Hadoop2.4.0/Hbase0.98.0/Hive0.14.0在我重新启动HMaster之前,Hadoop和HBase运行良好。hbase-hduser-master-master.log文件中出现以下错误:2015-02-1705:46:15,157INFO[master:master:60000]master.TableNamespaceManager:Namespacetablenotfound.Creating...2015-02-1705:46:15,193DEBUG[master:master:60000]lock.ZKInterProcessLockBas
我正在尝试使用yarn运行Spark,但我遇到了这个错误:线程“main”中的异常java.lang.Exception:当使用master'yarn'运行时,必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR。我不确定“环境”在哪里(具体是什么文件?)。我尝试使用:exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexportYARN_CONF_DIR=$HADOOP_HOME/etc/hadoop在bash_profile中,但这似乎没有帮助。 最佳答案 在使用Ya
我一直在努力让Hbase在我的机器上工作。我相信我的设置有问题,我无法修复它。我收到masternotrunning错误,但Jsp清楚地显示它正在运行。启动Hadoop和Hbase之后。我做了JPSyeshwanthvenkatesh@mymachineip/usr/local/Cellar/hbase/0.94.4/bin(master)$jps1609Main715DataNode985TaskTracker614NameNode886JobTracker1463HRegionServer1263HQuorumPeer814SecondaryNameNode16951349HMas
我正在尝试运行测试Spark脚本以将Spark连接到hadoop。脚本如下frompysparkimportSparkContextsc=SparkContext("local","SimpleApp")file=sc.textFile("hdfs://hadoop_node.place:9000/errs.txt")errors=file.filter(lambdaline:"ERROR"inline)errors.count()当我用pyspark运行它时,我得到了py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo21.