Cloudera-CDH_草庐IT

r - 我们可以将 R 脚本或任何第三方软件安装到 CDH5(Hadoop 的 Cloudera 发行版)吗

我打算设置一个本地集群，我计划在其中使用CDH5。有了这个，我将拥有所有内置的hadoop生态系统，但是我的集群中也需要Rscript来进行一些hadoop流和数据分析工作。所以只是想知道是否可以使用CDH5并安装R脚本。谢谢最佳答案是的，但您必须使用RHadoop(https://github.com/RevolutionAnalytics/RHadoop/wiki)它在CDH上运行。您可以在此处找到有关Cloudera和RHadoop的更多信息:http://www.cloudera.com/content/cloudera

sql-server - 将 SQL Server 连接到 Cloudera CDH

我是Hadoop的新手。我想将SQLServer2008连接到Hadoop。任何人都可以给我执行此操作的步骤吗？非常感谢任何回答此问题的人。最佳答案为此，您可以使用ApacheSqoop。您可以使用Sqoop在ApacheHadoop和结构化数据存储(例如关系数据库)之间高效地传输大量数据。使用以下link安装Sqoop 关于sql-server-将SQLServer连接到ClouderaCDH，我们在StackOverflow上找到一个类似的问题： ht

sql-server Cloudera section amp Hadoop

hadoop - 使用 cloudera quickstart 的 Flume Avro Sink Source

是否可以在Cloudera-Quickstart-CDH-VM中使用AvroSink/Source设置FlumeClient-Collector-Structure？我知道没有实际用途，但是我想了解Flume如何与Avro文件一起使用以及我以后如何将它们与PIG等一起使用。它尝试了几种配置，但没有一种有效。对我来说，我似乎需要多个代理，但虚拟机中只能有一个。我最后尝试的是:agent.sources=readeravro-collection-sourceagent.channels=memoryChannelmemoryChannel2agent.sinks=avro-forward

quickstart cloudera dataplatform channel channels hadoop flume avro cloudera-cdh flume-ng

hadoop - Cloudera CDH 演示

DatastaxDSE带有组织良好的demos.ClouderaCDH5是否提供类似的东西？最佳答案看看ClouderaQuickstartVM.它(特别是Hue)包含一些使用Hadoop的演示。如果您只是想要在线示例代码或文章，而不是实时服务，只需在Internet上查找任何内容即可。任何与Hadoop相关的演示都可以运行。关于hadoop-ClouderaCDH演示，我们在StackOverflow上找到一个类似的问题： https://stacko

Cloudera hadoop section cloudera-cdh

hadoop - DataNode在CDH5集群中自动重启

我们已经设置了一个有6个从节点的集群。我试图了解当其中一个DataNode死亡时复制是如何发生的。我登录到其中一个从站并使用kill-9命令杀死了DataNode。一段时间后，DataNode自动重启，HDFS恢复健康状态。我正在验证这一点，因为DataNode的PID已更改。我没有看到任何关于DataNode上述行为的文档。这是ApacheHadoop或ClouderaCDH功能吗？任何对文档的引用都将受到赞赏。最佳答案由于datanode的pid发生了变化，我认为不是datanode的行为。如果您使用ClouderaMana

DataNode hadoop section Cloudera hdfs

hadoop - 执行时间 Cloudera VM

我使用的是具有标准配置的ClouderaVM，当我执行预定义示例时，执行时间相当长。有什么配置可以提高执行时间吗？最佳答案尝试向VM添加更多内存和CPU内核。关于hadoop-执行时间ClouderaVM，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/26636895/

Cloudera hadoop section stackoverflow questions virtual-machine hue

hadoop - 带有 MR1 的 CDH5.2 中的 distcp2

当distcp从s3到本地集群时，我们需要限制映射器带宽。所以我从https://repository.cloudera.com下载了hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar这是链接:https://repository.cloudera.com/artifactory/public/org/apache/hadoop/hadoop-distcp/2.5.0-cdh5.2.0-SNAPSHOT/hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar然后按照distcp命令运

distcp2 hadoop DistCp apache cloudera-cdh

hadoop - 如何在不下载的情况下浏览hadoop-2.5.0-cdh5.2.0的文件系统？

我可以直接在hadoop-0.20.3-cdh3u6版本上浏览文件系统，无需下载到本地机器，(master_hostname:50070)但是，必须将文件下载到版本为hadoop-2.5.0-cdh5.2.0的本地机器，我想在不下载的情况下查看数据，如何配置hdfs-site.xml?thepropertydfs.webhdfs.enabledhasbeensettotrue谢谢! 最佳答案如果你使用localhost:50070/dfshealth.html浏览HDFS文件系统，不能查看文本文件。使用localhost:5007

hadoop 何在 section blockquote code filesystems hdfs hadoop-yarn

hadoop - CDH 5 中的 AvroRecord 类发生了什么变化？

我正尝试在我的pom.xml中使用CDH5(ClouderaHadoop发行版)存储库，如Clouderadocumentation中所述.但是Maven提示找不到AvroRecord。这是我的pom.xml中的存储库设置:clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/下面是我如何在我的pom.xml中声明对Hadoop的依赖(排除部分与消除错误“javax.servlet.FilterRegistration的签名者信息与同一包中其他类的签名者信息不匹配”有关"):org.apache.hadoo

AvroRecord hadoop common hadoop-common cloudera avro

hadoop - Cloudera Manager 在哪里存储其配置？

我正在尝试追踪一个问题，即电子邮件警报从ClouderaManager发送到错误的电子邮件地址。我们已经在ClouderaUI中的“Alerts:MailMessageRecipients”下更正了电子邮件地址，并多次重启了整个集群，但邮件仍然被发送到旧的错误地址。有人可以详细说明传递这些警报的链条吗？最佳答案 (来自评论。)默认情况下，它存储在MySQL或postgresql等数据库中。您可以将其配置为使用不同的数据库，否则它会在本地运行一个数据库。关于hadoop-Clouder

Cloudera Manager section 警报 hadoop alerts cloudera-manager