草庐IT

cloudera-quickstart-vm

全部标签

hadoop - 如何在没有互联网连接的情况下手动安装 Cloudera with Parcels?

我正在尝试在RedHat6上安装Cloudera5.7。在ClouderaManager向导GUI中,在“选择存储库”屏幕上,我选中“用户包(推荐)”。但是我看不到“选择CDH版本”的选项。我没有互联网连接。我不想使用包。我应该怎么做才能安装Parcels?我无法使用Parcels继续安装。 最佳答案 您可以在此处找到5.7的说明:https://www.cloudera.com/documentation/enterprise/5-7-x/topics/cm_ig_create_local_parcel_repo.html对于最新

hadoop - 如何使用 Cloudera Quickstart Docker 容器执行 MapReduce 作业/JAR

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭5年前。Improvethisquestion我需要一些关于如何使用ClouderaDocker容器运行MapReduce程序/作业的帮助。我正在使用Linux(ElementaryOS)高配置。笔记本电脑(24GB内存,i7处理器)。我能够安装Clouderadocker镜像,运行它并毫无问题地执行以下操作:1.看到#提示符并运行HDFS命令(hadoopfs-ls),尽管它没有返回任何内容。2.可以访问Hue

hadoop - 如何在 Cloudera 中为 Hue 添加 jar 文件?

我在JSONserde表上运行SQL查询。它在HiveCLI中工作,但在Hue中失败并出现错误:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTask我猜是因为缺少jar文件;知道如何为Hue添加jar文件hive-hcatalog-core-1.2.1.jar吗? 最佳答案 将您的jar放在HDFS中,并使用ADDJARhdfs:///user/hive/lib/h

bash - 从 Cloudera Hadoop 中删除指定天数内的目录

我正在尝试编写一个bash脚本,它允许我在ClouderaHadoop中清理指定天数的目录。我考虑过将文件移动到临时目录,然后执行hdfsdfs-rm,但我无法将-mtime与hdfs结合使用Hadoop命令语法中的dfs-ls、-mv或-rm。我还考虑过-moveToLocal,但这不是一个选项。仅-copyToLocal或-get。任何建议将不胜感激。 最佳答案 试试这个(未测试)hadoopjar/opt/....../jars/search-mr-*-job.jarorg.apache.solr.hadoop.HdfsFin

hadoop - CLOUDERA 中的管道 (C++)

过去几个月我在Cloudera中使用Java工作。我想在我future的项目中使用C++。如果您能指导我如何在Hadoop上安装Pipes库,那就太好了。 最佳答案 您实际上不需要在服务器端安装任何其他东西。只需构建您的C++应用程序并像运行JavaHadoop客户端一样运行它。Thispost有一个很好的通过管道执行作业的基本示例。 关于hadoop-CLOUDERA中的管道(C++),我们在StackOverflow上找到一个类似的问题: https://

hadoop -/etc/hadoop/conf下的配置文件和/etc/hadoop/conf.cloudera.HDFS和/etc/hadoop/conf.cloudera.YARN下的配置文件有什么区别

我有cloudera5.7,我也有ClouderaManager。在目录/etc/hadoop下,我看到了三个子目录。/etc/hadoop/conf/etc/hadoop/conf.cloudera.HDFS//etc/hadoop/conf.cloudera.YARN/../conf/中的hadoop-env.sh不同于../conf.cloudera.HDFS/..../conf/中的core-site.xml也不同于../conf.cloudera.HDFS/..。../conf/下的hadoop-env.sh在YARN上有设置,而../conf.cloudera.HDFS下没

hadoop - Cloudera - 导入时的 Sqoop codegen 自定义 ORM 类

我是Cloudera环境的新手,我正在尝试使用Sqoop从RDBMS导入数据我需要在导入过程中对数据应用一些转换。具体来说,我需要在将某些字段存储到HadoopDFS之前对其进行加密。为此,我尝试使用codegen命令,它生成一个我可以修改的ORMJava类。假设我在MySQL数据库中有一个表“产品”,我想使用Sqoop将其导入HDFS并加密“品牌”字段。首先,我运行了这个命令:sqoopcodegen\--connectjdbc:mysql://localhost/test\--usernameusername--passwordpassword\--tableproducts这会在

hadoop - 使用cloudera hadoop UI自动化sqoop增量

有什么方法可以使用时间戳以外的列值自动执行sqoop导入。我试图在我的表中使用一列(ID)。但它没有用。下面是示例代码,我正在使用clouderahadoopUI来实现自动化。问题是最后一个值不会自动更新。import--connectjdbc:mysql://172.26.122.123:3306/books--usernamehadoop--password********--incrementalappend--check-columnid--last-value0--tableauthors--as-textfile--fields-terminated-by","--null

maven - Cloudera VM 上的 Apache Giraph - org.apache.hadoop 的 POM :hadoop-core:jar:2. 6.0 缺失,无依赖信息

我是Hadoop/Giraph和Java的新手。作为任务的一部分,我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书,名为“使用ApacheGiraph进行实用图形分析;作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”,我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。尝试在集群2.6.0-mr1-cdh5.12.0上使用hadoop版本运行更改后的pom.xml文件时,请发现以下错误`[cloudera@quickstartfirst]$m

hadoop - 无法在端口 7180 上设置 cloudera manager web - 集群安装

我正在使用具有以下主机名的ubuntu本地计算机并尝试设置clouderaHadoopDistributionCDH5。chaithu@localhost:~$hostnamelocalhostchaithu@localhost:~$hostname-flocalhostchaithu@localhost:~$sshchaithu@localhostWelcometoUbuntu16.04.2LTS(GNU/Linux4.8.0-36-genericx86_64)*Documentation:https://help.ubuntu.com*Management:https://land