Cloudera-CDH

hadoop - CDH HDFS节点退役永无止境

我们有一个12台服务器的hadoop集群(CDH)，最近，我们想停用其中的三台，但是这个进程已经在那里运行了2天多了。但它永远不会结束，特别是在过去的24小时内，我看到三个数据节点上只有94G数据可用，但在过去的24小时内大小似乎没有变化。即使通过复制不足的block数也已经为零。hdfs中的所有数据的复制因子都是3。以下是hadoopfsck命令的结果:总大小:5789534135468B(打开文件总大小:94222879072B)目录总数:42458文件总数:5494378符号链接(symboliclink)总数:0(当前正在写入的文件:133)block总数(已验证):55065

hadoop - 安装hadoop-cdh后/etc/init.d/下缺少初始化脚本

在Cloudera的文档中——“在集群上部署HDFS(使用命令行)”据说，要启动名称节点服务，请键入以下命令:forxin`cd/etc/init.d;lshadoop-hdfs-*`;dosudoservice$xstart;done问题是，/etc/init.d/目录下没有匹配hadoop-hdfs-*名称模式的项。我认为应该有一个hadoop-hdfs-namenode，不是吗？有人能告诉我为什么hadoop-hdfs-namenode不见了吗？我错过了任何部署步骤吗？非常感谢! 最佳答案您在安装时缺少可选服务包。尝试安装h

hadoop hadoop-cdh section hadoop-hdfs-namenode cloudera-cdh

java - 如何在 CDH 上查看 Avro 版本？

CDH上是否有检查Avro库版本的机制？我知道Avro库依赖于项目中的依赖项，但我看到在我们的Hadoop集群的节点上有一些地方默认驻留库。有没有办法检查默认包含在CDH发行版中的avro版本？即使我们将Avro与hive一起使用，Avro版本也是CDH自己使用的，无需单独配置(在CDH中)。我想知道如何检查Avro版本。最佳答案您可以运行avro-tools，它会告诉您所使用的Avro版本。$avro-toolsVersion1.7.6-cdh5.14.0-SNAPSHOTofApacheAvro....

何在 java section Avro code hadoop version cloudera

hadoop - 从 Oozie (CDH) 运行 Spark2

我正在尝试从Oozie运行一个spark作业(使用spark2-submit)，所以这个作业可以按计划运行。当运行我们从命令行在我们的服务帐户(不是Yarn)下运行shell脚本时，作业运行得很好。当我们将它作为Oozie工作流运行时，会发生以下情况:17/11/1612:03:55ERRORspark.SparkContext:ErrorinitializingSparkContext.org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=WRITE,inode="/us

hadoop Spark2 code section gt apache-spark cloudera oozie cloudera-cdh

hadoop - 无法在 ubuntu 机器上卸载通过 CDH5 安装的 sqoop

我从ClouderaManager中卸载了sqoop，但我仍然可以通过终端看到sqoop版本:chaithu@localhost:~$sqoopversionWarning:/opt/cloudera/parcels/CDH-5.13.1-1.cdh5.13.1.p0.2/bin/../lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$ACCUMULO_HOMEtotherootofyourAccumuloinstallation.17/12/2418:49:28INFOsqoop.Sqoop:Run

hadoop ubuntu section sqoop cloudera cloudera-manager sqoop2

csv - cloudera quick start 使用终端加载 csv 表 hdfs

我对这一切还很陌生，因为我才上第二个学期，我只需要帮助来理解我需要执行的命令。我正在尝试使用终端将本地csv文件加载到cloudera上的hdfs。我必须使用这些数据并与Pig一起完成一项任务。我已经尝试了所有方法，但它仍然给我'nosuchfileordirectory'。我关闭了安全模式，检查了目录，甚至确保可以读取文件。以下是我尝试加载数据的命令:hadoopfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csv/user/roothdfsdfs-copyFromLoca

csv cloudera code copyFromLocal hadoop terminal hdfs

hadoop - Cloudera VM，压缩编解码器

我正在准备CLOUDERA认证，有时很难记住Sqoop导入过程中使用的压缩编解码器。例如:org.apache.hadoop.io.compress.SnappyCodec.考试期间不允许我使用谷歌。在考试的时候，有没有办法检索这些信息？目前我使用的是ClouderaQuickstartVM，在Mapred-site.xml中没有找到这个信息。我在哪里可以找到相同的？最佳答案我相当确定您可以访问Cloudera文档https://www.cloudera.com/documentation/enterprise/5-14-x/t

Cloudera hadoop section https introduction_compression compression

hadoop - cloudera director客户端安装

我正尝试按照这些教程在AWS上安装apache-spot和Cloudera:http://blog.cloudera.com/blog/2018/02/apache-spot-incubating-and-cloudera-on-aws-in-60-minutes/https://www.cloudera.com/documentation/director/latest/topics/director_get_started_aws_install_dir_server.html#concept_xnb_cwh_jx但是当我运行时:sudoapt-getinstallcloudera

cloudera director archive hadoop cloudera-director apache-spot

hadoop - 在 CentOS 7 中安装 Cloudera 管理器时没有可用的软件包 oracle-j2sdk1.7

我正在运行cloudera安装命令./cloudera-manager-installer.bin接受oracle许可证后，我收到以下错误oracle-j2sdk1.7installationfailed.See/var/log/cloudera-manager-installer/1.install-oracle-j2sdk1.7.logfordetails.ClickOKtorevertthisinstallation.当我登录文件1.install-oracle-j2sdk1.7.log时通过使用cd/var/log/cloudera-manager-installer/进入文件

中安 Cloudera code cloudera-cdh hadoop centos cloudera-manager

user-interface - 在 Cloudera 中创建表单

我在Cloudera生态系统中工作，作为初学者，我从实现flumetwitter示例开始并成功完成。现在，每当我想从Twitter流式传输不同关键字的数据时，我必须进入Twitter的配置文件并对其进行编辑，然后使用终端执行flume代理。我正在考虑一种方法，让用户打开一个表单并在其中输入关键字，然后执行flume代理从Twitter获取数据，而不是每次都去Twitter配置文件。为此，我想知道Cloudera生态系统中是否有任何工具可以实现我上面讨论的想法？最佳答案据我所知，ClouderaManager是唯一允许Flume代

中创 user-interface section Cloudera Twitter hadoop cloudera-cdh flume-twitter

20 21 222324 25 26