草庐IT

vm-cdh-cluster

全部标签

hadoop - 如果我们使用 DistCp 命令, block 大小从 Cluster1 到 Cluster2 有何变化?

我正在处理“DistCp”命令以将一些关键文件从MyCluster1移动到Cluster2。这些关键文件之前以64MB的Blocksize驻留。现在转移到Cluster2[它有128MB的block大小]。在DistCp移动之后,关键文件性能将如何随着Cluster2中的新block大小而增加..性能增加或减少..??? 最佳答案 这取决于您的文件。Hadoop文件应该按顺序读取,如果您的文件很大(比如Gbs或Tbs),如果您增加block大小,它会提高性能,因为它会减少要执行的任务数量。使用Distcp进行复制不会保留文件的blo

r - 我们可以将 R 脚本或任何第三方软件安装到 CDH5(Hadoop 的 Cloudera 发行版)吗

我打算设置一个本地集群,我计划在其中使用CDH5。有了这个,我将拥有所有内置的hadoop生态系统,但是我的集群中也需要Rscript来进行一些hadoop流和数据分析工作。所以只是想知道是否可以使用CDH5并安装R脚本。谢谢 最佳答案 是的,但您必须使用RHadoop(https://github.com/RevolutionAnalytics/RHadoop/wiki)它在CDH上运行。您可以在此处找到有关Cloudera和RHadoop的更多信息:http://www.cloudera.com/content/cloudera

sql-server - 将 SQL Server 连接到 Cloudera CDH

我是Hadoop的新手。我想将SQLServer2008连接到Hadoop。任何人都可以给我执行此操作的步骤吗?非常感谢任何回答此问题的人。 最佳答案 为此,您可以使用ApacheSqoop。您可以使用Sqoop在ApacheHadoop和结构化数据存储(例如关系数据库)之间高效地传输大量数据。使用以下link安装Sqoop 关于sql-server-将SQLServer连接到ClouderaCDH,我们在StackOverflow上找到一个类似的问题: ht

ubuntu - Hadoop 2.4.1 安装在 Ubuntu 14.04 上无法正常运行?节点管理器 VM 堆栈保护错误

我正在尝试在Ubuntu14.04LTS64位机器上设置Hadoop2.4.1多集群。启动Hadoop守护程序后,当我jps时,我看不到我的节点管理器正在运行。当我检查节点管理器日志时,出现以下错误:JavaHotSpot(TM)64-BitServerVMwarning:Youhaveloadedlibrary/usr/share/hadoop-2.4.1/lib/native/libhadoop.so.1.0.0whichmighthavedisabledstackguard.TheVMwilltrytofixthestackguardnow.谁能建议我如何解决这个问题?我关注这个

hadoop - Cloudera CDH 演示

DatastaxDSE带有组织良好的demos.ClouderaCDH5是否提供类似的东西? 最佳答案 看看ClouderaQuickstartVM.它(特别是Hue)包含一些使用Hadoop的演示。如果您只是想要在线示例代码或文章,而不是实时服务,只需在Internet上查找任何内容即可。任何与Hadoop相关的演示都可以运行。 关于hadoop-ClouderaCDH演示,我们在StackOverflow上找到一个类似的问题: https://stacko

hadoop - DataNode在CDH5集群中自动重启

我们已经设置了一个有6个从节点的集群。我试图了解当其中一个DataNode死亡时复制是如何发生的。我登录到其中一个从站并使用kill-9命令杀死了DataNode。一段时间后,DataNode自动重启,HDFS恢复健康状态。我正在验证这一点,因为DataNode的PID已更改。我没有看到任何关于DataNode上述行为的文档。这是ApacheHadoop或ClouderaCDH功能吗?任何对文档的引用都将受到赞赏。 最佳答案 由于datanode的pid发生了变化,我认为不是datanode的行为。如果您使用ClouderaMana

java - 安装Github Project Cascading/vagrant-cascading-hadoop-cluster 出错

我开始安装vagrant-cascading-hadoop-clustergithub项目,但是出现了一些错误,无法结束安装。当我做“vagrantup”时sina@linux:/media/sina/passport/vagrant-cascading-hadoop-cluster$sudovagrantupBringingmachine'hadoop1'upwith'virtualbox'provider...Bringingmachine'hadoop2'upwith'virtualbox'provider...Bringingmachine'hadoop3'upwith'vir

linux - 尝试在 Windows 8 上运行的 VM 上安装 hadoop Bigtop

我正在尝试了解hadoop及其工具,我正在阅读Hadoopfordummies这本书(这是合适的)它给了我很多步骤,它们是我在虚拟机上设置CentOS6之后1>打开终端///完成2>使用提供的配置文件转到root//完成3使用此命令下载bigTop存储库:wget-O/etc/yum.repos.d/bigtop.repo\]http://www.apache.org/dist/bigtop/bigtop-0.7.0/repos/centos6/bigtop.repo]//完成4使用此命令在hadoop中安装工具:yuminstallhadoop\*mahout\*oozie\*hba

hadoop - 执行时间 Cloudera VM

我使用的是具有标准配置的ClouderaVM,当我执行预定义示例时,执行时间相当长。有什么配置可以提高执行时间吗? 最佳答案 尝试向VM添加更多内存和CPU内核。 关于hadoop-执行时间ClouderaVM,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/26636895/

hadoop - 带有 MR1 的 CDH5.2 中的 distcp2

当distcp从s3到本地集群时,我们需要限制映射器带宽。所以我从https://repository.cloudera.com下载了hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar这是链接:https://repository.cloudera.com/artifactory/public/org/apache/hadoop/hadoop-distcp/2.5.0-cdh5.2.0-SNAPSHOT/hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar然后按照distcp命令运