草庐IT

hadoop - 能否将CDH3的HBase数据导出,导入CDH5的HBase?

我们有一个旧的基于CDH3的集群,我们将数据存储在该集群上的HBase中。我们还有全新的集群,其中安装了CDH5.2。我们想将HBase数据从CDH3集群迁移到CDH5集群。我想知道是否可以跨不同版本迁移数据?是否像使用distcp命令一样直接?在迁移数据之前和迁移过程中我需要采取哪些预防措施? 最佳答案 我认为对此没有简单的解决方案。我能想到的最简单的解决方案是使用一个MapReduce作业将每个HBase表导出到CDH3集群上的HDFS。一个DistCp作业将导出的HDFS数据从您的CDH3集群传输到CDH5集群上的HDFS,最

ubuntu - 权限被拒绝 : u'/opt/cloudera/parcel-cache/CDH-5. 3.3-1.cdh5.3.3.p0.5-precise.parcel.part'

我正在尝试安装具有3个节点的hadoopcloudera集群,所有这些节点都是ubuntu12.04机器。为此,我做了以下事情。我已经在所有机器上创建了hduser,并通过以下命令授予它root权限。sudoaddgrouphadoopsudoadduser--ingrouphadoophdusersudoadduserhdusersudosudosuhduser然后在所有机器上通过以下命令为无密码ssh生成无密码key。机器详细信息:master-1ip:192.168.0.101slave-1ip:192.168.0.102slave-2ip:192.168.0.103命令:ssh

python-3.x - 如何从远程python服务连接到CDH集群

我有一个在aws上运行的CDH集群。还有一组服务在连接到ECS集群的不同ec2机器上运行。都在一个VPN中。我的用例是将数据从在ec2上运行的外部服务写入CDHhadoop集群。我正试图找出最好的方法。请建议我在python中实现这一目标的可能方法。 最佳答案 ApacheHadoop提供WebHDFS,这是进入HDFS操作的HTTP接口(interface)。这允许您使用任何PythonHTTP客户端库(例如httplib)来操作HDFS中的文件。,urllib或urllib2.事实上,您可以使用任何提供HTTP客户端库的编程语言

hadoop - 如何将 Zeppelin 添加到 CDH 'by the book'?

您可以通过ClouderaManager安装许多工具,但列表中缺少Zeppelin。将Zeppelin添加到ClouderaCDH堆栈的最佳方法是什么?我在互联网上找到了一些文档,但它们有点手动。我正在寻找托管解决方案。 最佳答案 CDH支持笔记本环境的Hue。据我所知,ClouderaManager不支持ZeppelinParcel。我不确定您所说的“托管解决方案”是什么意思,但是自动安装Zeppelin(和Spark),配置指向外部YARNmaster以提交作业并不太复杂,并且可以写成Puppet、Chef或Ansible相当容

hadoop - 使用 sqoop 从 Oracle(Windows) 导入数据到 HDFS (CDH3) 机器

您好,我正在参加HADOOP培训。我有一个任务,我必须使用sqoop将表数据从oracle(windows,11gxe)导入到hdfs。我正在阅读以下文章。我的问题是如何将数据从Windows准确导入到hdfs。通常我使用Winscp将文件从Windows传输到hdfs机器。我已经从安装在hdfs(cdh3)机器上的MySql导入了数据。但是我不知道将数据从windows中的Oracle导入到hdfs。请帮忙。LinkthatIamfollowing 最佳答案 以下是分步过程:1.Connectoraclesql命令行使用您的凭据登

hadoop - 使用CDH(cloudera)有什么好处?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭7年前。Improvethisquestion为什么我们使用CDH(cloudera)而不是使用Apache-Hadoop或Apache-Sparkets。独自?它有什么优势?如果我想用Apache-Spark做数据分析,单独使用CDH好还是Apache-Spark框架好?谢谢

hadoop - 无法在 CDH 5.7.5 中安装 Spark 2.0

我正在尝试在我的CDH5.7.5集群中安装SPARK2.0。这样做时我遇到了以下错误CDH(lowerthan5.12)parcelrequiredforSPARK2(2.0.0.cloudera1-1.cdh5.7.0.p0.113931)isnotavailableP.S:已关注documentation 最佳答案 取消选中Parcel配置中的ValidateParcelRelations 关于hadoop-无法在CDH5.7.5中安装Spark2.0,我们在StackOverflo

ubuntu - 无法使用 CDH4 : Datanode denied communication with namenode 启动 hdfs 服务

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。ImprovethisquestionUbuntu12.04服务器AMD64有什么建议吗?InitializationfailedforblockpoolBlockpoolBP-1276073141-127.0.1.1-1357815963565(storageidDS-1319948814-127.0.1.1-50010-1357815971500)servicetobpct-server-01/127.0.1.1:8020org

hadoop - 使用 MR1 CDH4 运行简单的 MapReduce Streaming 作业失败

我有一个最近从CDH3升级到CDH4的集群。Hive目前运行良好。然而,我似乎无法让它运行简单的MRStreaming作业(版本1)。Yarn已安装但未使用。下面是命令行输入输出$/usr/lib/hadoop/bin/hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.0.jargrep-input/input-output/output/'dfs[a-z.]+'检查日志显示:packageJobJar:[/tmp/hadoop-hdfs/hadoop-

hadoop - s3distcp 在 CDH4.5 上不适合我

我正在运行CDH4.5。我试图将distcp用于s3n,但自升级到4.5后出现问题。我正在尝试启动并运行s3distcp,但遇到了问题。我下载了它,并正在运行这个命令:hadoopjar/usr/lib/hadoop/lib/s3distcp.jar--srchdfs://NN:8020/path/to/destination/folder--dests3n://acceseKeyId:secretaccesskey@mybucket/destination/但我收到以下错误:INFOmapred.JobClient:map100%reduce0%INFOmapred.JobClien