cloudera-manager

hadoop - 通过 IP 连接到 cloudera 虚拟机中的 Hadoop HDFS

我正在寻找通过hdfs的服务器地址连接到cloudera虚拟机上的hadoop实例。有谁知道如何找到这个的IP地址吗？如果没有，我如何在本地连接到虚拟机中的hdfs，因为它们都在同一台计算机上运行。需要为pentahokettle连接执行此操作。最佳答案如果您尝试配置PentahoDataIntegration(Kettle)以使用HDFS作为输入数据源，那么首先您需要获取HDFSNameNode服务的主机名/IP地址和端口号，您将然后进入(Pentaho)Spoon(Kettle的GUI)。获取HDFSNameNodeIP

r - 我们可以将 R 脚本或任何第三方软件安装到 CDH5(Hadoop 的 Cloudera 发行版)吗

我打算设置一个本地集群，我计划在其中使用CDH5。有了这个，我将拥有所有内置的hadoop生态系统，但是我的集群中也需要Rscript来进行一些hadoop流和数据分析工作。所以只是想知道是否可以使用CDH5并安装R脚本。谢谢最佳答案是的，但您必须使用RHadoop(https://github.com/RevolutionAnalytics/RHadoop/wiki)它在CDH上运行。您可以在此处找到有关Cloudera和RHadoop的更多信息:http://www.cloudera.com/content/cloudera

Cloudera Hadoop section RHadoop r cloudera-cdh

sql-server - 将 SQL Server 连接到 Cloudera CDH

我是Hadoop的新手。我想将SQLServer2008连接到Hadoop。任何人都可以给我执行此操作的步骤吗？非常感谢任何回答此问题的人。最佳答案为此，您可以使用ApacheSqoop。您可以使用Sqoop在ApacheHadoop和结构化数据存储(例如关系数据库)之间高效地传输大量数据。使用以下link安装Sqoop 关于sql-server-将SQLServer连接到ClouderaCDH，我们在StackOverflow上找到一个类似的问题： ht

sql-server Cloudera section amp Hadoop

hadoop - 使用 cloudera quickstart 的 Flume Avro Sink Source

是否可以在Cloudera-Quickstart-CDH-VM中使用AvroSink/Source设置FlumeClient-Collector-Structure？我知道没有实际用途，但是我想了解Flume如何与Avro文件一起使用以及我以后如何将它们与PIG等一起使用。它尝试了几种配置，但没有一种有效。对我来说，我似乎需要多个代理，但虚拟机中只能有一个。我最后尝试的是:agent.sources=readeravro-collection-sourceagent.channels=memoryChannelmemoryChannel2agent.sinks=avro-forward

quickstart cloudera dataplatform channel channels hadoop flume avro cloudera-cdh flume-ng

hadoop - Cloudera CDH 演示

DatastaxDSE带有组织良好的demos.ClouderaCDH5是否提供类似的东西？最佳答案看看ClouderaQuickstartVM.它(特别是Hue)包含一些使用Hadoop的演示。如果您只是想要在线示例代码或文章，而不是实时服务，只需在Internet上查找任何内容即可。任何与Hadoop相关的演示都可以运行。关于hadoop-ClouderaCDH演示，我们在StackOverflow上找到一个类似的问题： https://stacko

Cloudera hadoop section cloudera-cdh

hadoop - 执行时间 Cloudera VM

我使用的是具有标准配置的ClouderaVM，当我执行预定义示例时，执行时间相当长。有什么配置可以提高执行时间吗？最佳答案尝试向VM添加更多内存和CPU内核。关于hadoop-执行时间ClouderaVM，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/26636895/

Cloudera hadoop section stackoverflow questions virtual-machine hue

hadoop - Cloudera Manager 在哪里存储其配置？

我正在尝试追踪一个问题，即电子邮件警报从ClouderaManager发送到错误的电子邮件地址。我们已经在ClouderaUI中的“Alerts:MailMessageRecipients”下更正了电子邮件地址，并多次重启了整个集群，但邮件仍然被发送到旧的错误地址。有人可以详细说明传递这些警报的链条吗？最佳答案 (来自评论。)默认情况下，它存储在MySQL或postgresql等数据库中。您可以将其配置为使用不同的数据库，否则它会在本地运行一个数据库。关于hadoop-Clouder

Cloudera Manager section 警报 hadoop alerts cloudera-manager

python - 通过 Python 连接到 Cloudera 集群

我有一个已启动并正在运行的Cloudera集群。我目前正在编写一个Python应用程序，它查询API以获得响应。我正在将此响应写入应用程序中的文本文件。但是，我还想在应用程序中以编程方式将此文本文件导出到cloudera集群。这可能吗？能否请您指出一些引用资料或示例代码来实现此目的？或者只是您对此的想法和建议。谢谢! 最佳答案您可能希望查看Spotify的Snakebite项目，它为您提供了一种直接通过Python使用HDFS的方法。http://spotify.github.io/snakebite/fromsnakebite.

Cloudera python section snakebite hadoop export hdfs

Hadoop 从 Cloudera 中删除挂载点文件夹

我已经搜索过，并且一直在阅读ClouderaHadoop上有关删除挂载点文件系统的内容，但我找不到有关删除它们的内容。我在6台机器上有两个SSD驱动器，当我最初安装ClouderaHadoop时，它添加了所有文件系统，我只需要两个挂载点来运行几个teragen和terasorts。我需要删除除以下内容之外的所有内容:/dev/nvme0n1和/dev/nvme1n1 最佳答案在ClouderaManager中，您可以修改用于HDFS数据的驱动器列表:Clusters>HDFS>Configuration>DataNodeDefau

Cloudera Hadoop section hdfs removeall

hadoop - 如何在 Cloudera 中配置 Yarn 以在所有集群节点上运行 Spark 执行程序？

我们有一个Cloudera集群，其中包含3个数据节点和相应的yarn节点管理器。然而，当我们以yarn-client模式向集群提交一个spark脚本时，其中一个节点被处理为applicationmaster，只有另外两个节点被处理为Sparkexecutor。这显示在下面的spark日志中，其中只有节点2和节点3被设置为执行者:Usingpropertiesfile:/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/conf/spark-defaults.confAddingdefaultproperty:spark.

何在 Cloudera 15 INFO 20 hadoop apache-spark hadoop-yarn