single-version-externally-managed

hadoop - HDFS 在私有(private)云中使用 Cloudera Manager

这让我发疯。我已经为此工作了好几天，但似乎无法解决这个问题。我有一个在桉树上运行的私有(private)云用于测试，还有4个运行Ubuntu12.04的虚拟机。我试图让cloudera运行HDFS和map-reduce但是当我尝试启动它时，数据节点似乎永远无法与名称节点通信。它安装良好并通过了所有启动前检查。主机文件全部设置为127.0.0.1本地主机和其他虚拟机的ip和主机名，防火墙全部禁用，安全组设置为允许一切。我可以使用名称节点上的telnet和netstat连接到从数据节点到名称节点的8022端口，如下所示:tcp00172.31.254.119:90000.0.0.0:*听6

私有 Cloudera section strong tcp hadoop hdfs

Hadoop 配置单元 SQL : Create External Table from an oddly formatted file

目前我有一个初始系统在工作，它读取一个文件，每行格式如下所示:REVISION1230364918Anarchism2005-12-06T17:44:47ZRJII141644使用此代码:CREATEEXTERNALTABLEmytable(typeSTRING,aidBIGINT,ridBIGINT,titleSTRING,tsSTRING,unameSTRING,uidSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY''STOREDASTEXTFILELOCATION'/my/local/path/to/file';但是现在我有一个文件，每一行

配置单 formatted section STRING code hadoop hbase hive bigdata

hadoop - Cloudera Manager 安装失败

我正在尝试使用ClouderaManager5在EC2上创建一个用于测试目的的小型集群。这些是我遵循的方向，http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.7.1/Cloudera-Manager-Installation-Guide/cmig_install_on_EC2.html.它正在执行“在服务spark上执行命令SparkUploadJarServiceCommand”，但它失败了。错误是“在spark_master上上传SparkJar失败”。出了什么问题，我该如何解决？感谢您的

Cloudera Manager hadoop amazon-ec2 cloudera-manager cloudera-cdh

ubuntu - 我应该把 Cloudera Manager Server 放在哪里

我有一个由4个ubuntu12.04LTS组成的集群，准备利用ClouderaManager(带有CDH5)安装Hadoop。但是我对ClouderaManagerServer放在哪里感到困惑。是否要添加一台新的ubuntu机器来托管ClouderaManagerServer，然后让它管理由1主3从组成的Hadoop集群？或者我应该将ClouderaManagerServer与Hadoopmaster放在一起吗？因此Hadoopmaster和ClouderaManagerServer在一台(虚拟)机器上。这个问题可能会重复here.但是看了之后还是一头雾水。期待任何专业知识。

Cloudera Manager section ubuntu hadoop cloudera-manager

hadoop - 在 ubuntu 12.04 LTS 中使用 cloudera manager 安装 Cloudera CDH5

我正在尝试在Ubuntu12.04LTS(64位)中使用ClouderaManager安装CDH5。我正在按照Clouderalink中提到的步骤进行操作.我无法为安装CDH5指定正确的主机名。除了/etc/hosts文件中的127.0.0.1和127.0.1.1之外，我没有任何其他条目。我正在使用USB加密狗访问互联网，但我现在没有任何以太网连接。请告诉我是否需要以太网连接才能在我的PC中安装CDH5。附言我目前是一名大型机开发人员，没有任何Linux或开源背景。我花了将近40个小时的时间试图在我的机器上安装CDH5，以便我可以进行Udacity'sIntroductiontoHad

Cloudera section CDH5 hadoop ubuntu-12.04 cloudera-cdh cloudera-manager

hadoop - Apache pig : Convert bag of tupple to single tupple

我正在尝试将一袋元组转换为单个元组:grunt>describeB;B:{Comment:{tuple_of_tokens:(token:chararray)}}grunt>dumpB;({(10),(123),(1234)})我想从B得到(10,123,1234)。我试过使用FLATTEN但这为包中的每个元组提供了一个新行，这不是我想要的。有没有办法在不使用UDF的情况下进行这种转换？提前致谢! 最佳答案 BagToTuple()函数在piggybank中已经可用，您只需下载pig-0.11.0.jar并将其设置在您的类路径中。为

tupple Convert strong code section hadoop apache-pig

来自 Cloudera Manager 的电子邮件警报

我们需要设置一个流程，使我们能够从ClouderaManager接收基于Hadoop指标的电子邮件警报。例如。某项服务出现故障，超过10个数据节点被列入黑名单等。在CM5.1版中实现此目标的最佳方法是什么？最佳答案您是否尝试在管理->警报下查看Cloudera管理器？那里有相当多的内置监控和警报配置选项。关于您的示例，在HDFS警报下有一个针对“DataNode健康”的特定设置。关于来自ClouderaManager的电子邮件警报，我们在StackOverflow上找到一个类似的问

警报 Cloudera section email hadoop alert cloudera-manager

hadoop - pig : how to separate data by positions in a single line

通常，如果我们在一行中有任何分隔符，我们会这样做。load"pigtest.txt"usingPigStorage(',')as(year:int,temp:float);下面是单行数据的示例。0029029070999991901010106004+64333+023450FM12+000599999V0202701N015919999999N0000001N9-00781+99999102001ADDGF108991999999999999999999我需要提取年份1901(16thpositionto4positions)吨emperature(89thpositionto4po

positions separate code strong section hadoop apache-pig

linux - Cloudera Manager 检查器未在主机上运行

我目前有3台机器，所有bootcampedmac都运行Ubuntu，我正在尝试使用CDH5将它们设置为Hadoop集群。在使用安装程序向导时，当它“检查主机的正确性时，我得到如下所示的错误.检查器在所有主机上都失败了，它说IOExceptionthrownwhilecollectingdatafromhost:Connectionrefused在设置机器时，我在运行cloudera管理器安装程序之前做的唯一一件事就是启用ssh。在主机文件中都有本地主机和我的用户在127.0.0.1关于为什么连接被拒绝或者我可以做些什么来修复它有什么想法吗？最佳答案

机上 Cloudera section stackoverflow linux hadoop

hadoop - Cloudera Manager - HDFS 可用空间健康问题故障排除

我有一个由两台主机配置的集群-我正在运行的作业似乎正在创建大量日志，并且我的一个hdfs数据节点显示严重的健康问题为-四件事:如何清理这些日志并腾出空间？从/var/log/hadoop-hdfs手动删除它们是个好主意吗？如上/var/log/hadoop-hdfs目录只有610MBhdfs的空间在哪里被占用？如何配置日志文件以定期删除？我有HDFS、Spark和YARN-MR2服务已启动并正在运行，它们都在创建自己的日志。我也想清理那些。谢谢! 最佳答案深入研究hdfs之后-要获取哪个目录的大小，请执行:hadoopfs-du-

Cloudera Manager section hadoop strong apache-spark hdfs hadoop-yarn spark-graphx