$cloudera

hadoop - cloudera director客户端安装

我正尝试按照这些教程在AWS上安装apache-spot和Cloudera:http://blog.cloudera.com/blog/2018/02/apache-spot-incubating-and-cloudera-on-aws-in-60-minutes/https://www.cloudera.com/documentation/director/latest/topics/director_get_started_aws_install_dir_server.html#concept_xnb_cwh_jx但是当我运行时:sudoapt-getinstallcloudera

hadoop - 在 CentOS 7 中安装 Cloudera 管理器时没有可用的软件包 oracle-j2sdk1.7

我正在运行cloudera安装命令./cloudera-manager-installer.bin接受oracle许可证后，我收到以下错误oracle-j2sdk1.7installationfailed.See/var/log/cloudera-manager-installer/1.install-oracle-j2sdk1.7.logfordetails.ClickOKtorevertthisinstallation.当我登录文件1.install-oracle-j2sdk1.7.log时通过使用cd/var/log/cloudera-manager-installer/进入文件

中安 Cloudera code cloudera-cdh hadoop centos cloudera-manager

user-interface - 在 Cloudera 中创建表单

我在Cloudera生态系统中工作，作为初学者，我从实现flumetwitter示例开始并成功完成。现在，每当我想从Twitter流式传输不同关键字的数据时，我必须进入Twitter的配置文件并对其进行编辑，然后使用终端执行flume代理。我正在考虑一种方法，让用户打开一个表单并在其中输入关键字，然后执行flume代理从Twitter获取数据，而不是每次都去Twitter配置文件。为此，我想知道Cloudera生态系统中是否有任何工具可以实现我上面讨论的想法？最佳答案据我所知，ClouderaManager是唯一允许Flume代

中创 user-interface section Cloudera Twitter hadoop cloudera-cdh flume-twitter

java - 如何在 Cloudera 中安排/触发 Spark 作业？

目前我们的项目在MR上，我们使用Oozie来编排我们的MR作业。现在我们正在转向Spark，并且想知道在CDH集群上调度/触发Spark作业的推荐方法。请注意，CDHOozie不支持Spark2作业。所以请为此提供一个替代方案。最佳答案我上次查看时，Hue在Worlflow编辑器中有一个Spark选项。如果Cloudera不支持它，我不确定它为什么会在那里......虽然CDHOozie确实支持纯shell脚本，但您需要确保所有NodeManager都将在本地服务器上提供可用的spark-submit命令。如果这不起作用，它还支

中安何在 section Spark stackoverflow java scala apache-spark hadoop cloudera

memory - 比较使用 Map Reduce(Cloudera Hadoop 0.20.2)两个大小接近 3GB 的文本文件

我正在尝试在hadoopmap/reduce(用java、linux内核操作系统编写)中执行以下操作文本文件'rules-1'和'rules-2'(总共3GB大小)包含一些规则，每个规则由结束符分隔，因此可以使用readLine()函数读取文件。这些文件“rules-1”和“rules-2”需要作为一个整体从hdfs导入到我集群中的每个映射函数中，即这些文件不能跨不同的映射函数拆分。映射器的map函数的输入是一个名为“record”的文本文件(每行以结束符结束)，因此我们从“record”文件中获取(键，值)对。该文件是可拆分的，可以作为整个map/reduce过程中使用的不同map函

Cloudera 本文 rules section 的 memory hadoop mapreduce compare overflow

java - Cloudera Manager 4.0 字数统计示例

我安装了ClouderaManager并将2个节点连接到一个主节点。我正在尝试使用cloudera在此链接提供的教程运行wordcount程序:https://ccp.cloudera.com/display/SUPPORT/Hadoop+Tutorial#HadoopTutorial-InputsandOutputsCloudera说要编译我在命令提示符下使用nano创建的WordCount.java文件。我创建了目录Wordcount_Classes并将wordcount.java文件放在那里。我不知道是否应该将该目录移动到cloudera目录之一的某个位置以使java代码工作？或

Cloudera Manager WordCount class symbol java hadoop word-count

hadoop - AWS EC2 - Cloudera Manager - 停止实例

我已经使用cloudera管理器在AmazonEC2上设置了hadoop集群。Cloudera管理器创建了两个实例，并且都按预期工作。我试图通过AWS控制台停止cloudera创建的实例，但没有停止选项。我们只有“终止”和“重启”。我不想终止这些实例，因为我想重用这些实例。如何停止这些实例？最佳答案由于您的实例来自实例存储支持的AMI，您将只能重启和终止实例。查看“根设备”下的管理控制台以确认情况是否如此。要解决此问题，您可以从您的实例创建一个AMI，然后使用新的AMI重新启动您的环境，这样您就可以选择停止您的实例。

Cloudera Manager section stackoverflow 实例 hadoop amazon-ec2

hadoop - 通过 Cloudera Manager 4.5 安装 Hadoop 后 HDFS 仅指向本地文件系统

安装ClouderaManager4.5后，我发现它没有配置为指向正确的默认文件系统。如果我从其中一个tasktracker/datanode框运行haddopfs-ls/，我只会得到本地文件系统。但是当我在cloudera中检查core-site.xml时，我看到了这个设置，这似乎是正确的:fs.defaultFShdfs://hadoop-namenode1:8020知道我应该在这里寻找什么吗？davidparks21@hadoop-reducedslot2:~$hadoopfs-ls/Found22itemsdrwxr-xr-x-rootroot40962013-04-1213:

Cloudera Manager root drwxr-xr-x drwxr hadoop hdfs

Cloudera Impala 的内存配置

我正在使用Impala，我知道Impala在内存中进行处理。我搜索了Impala配置选项的列表，但我没有找到任何关于此的详尽文档，尤其是关于内存/堆的文档。Impala有这样的设置吗？还是依赖于hdfs/datanode堆空间？我知道您可以使用-mem_limit来限制Impala内存使用量，但我正在尝试更好地理解这是如何完成的。最佳答案自Impala1.4.0版本起，包含在CDH5.1.0中,Impala在查询处理过程中同时使用内存和磁盘。要了解有关如何控制Impala对内存的使用的更多信息，我建议阅读Clouderadocu

Cloudera Impala noreferrer memory hadoop ram

hadoop - 使用 Cloudera Director 创建新集群

尝试使用ClouderaDirector创建新集群时出现以下错误。有什么建议吗？[ec2-user@ip-10-0-2-227cloudera-director-1.0.0]$./bin/cloudera-directorbootstrap-remoteaws.reference.conf--lp.remote.hostAndPort=127.0.0.1:7189Processlogscanbefoundat/home/ec2-user/cloudera/cloudera-director-1.0.0/logs/application.logClouderaDirector1.0.0i

新集 Cloudera section cloudera-director hadoop amazon-web-services

10 11 121314 15 16