草庐IT

Cloudera-CDH

全部标签

hadoop - 如何从 CDH 5.4.4 上的 Spark 查询 Hive

我正在运行CDH5.4.4(它捆绑了Spark1.3.0)并希望将Hive表读入Spark数据帧。查看文档,建议我们可以执行以下操作:frompyspark.sqlimportHiveContextsqlContext=HiveContext(sc)results=sqlContext.sql("SHOWTABLES").collect()...假设Spark是使用-Phive和-Phive-thriftserver标志集构建的。我不确定Cloudera的构建是否设置了这些标志。当我运行代码片段时,它返回以下错误:15/07/1016:54:10WARNHiveMetaStore:Re

hadoop - 使用cloudera quickstartVM错误创建Hadoop集群

我想使用quickstartVM镜像创建一个Cloudera集群,您可以直接从cloudera的网页(http://www.cloudera.com/downloads/quickstart_vms/5-8.html)下载该镜像。我有三个虚拟机,我想有一个主机和两个从机。我已经对它们进行了配置,以便在3个虚拟机之间具有不同的主机名和DNS连接。但是,当我尝试添加新主机时,我通常会丢失来自其他机器的心跳,或者当它没有发生时,我会遇到版本不匹配和HDFS错误。那么,在尝试添加新主机之前,我应该做任何其他配置设置吗? 最佳答案 如果您想使

hadoop - Cloudera错误-java.lang.NoSuchFieldError : IS_SECURITY_ENABLED while trying to access this field

DoneMyHome工作到处搜索,但没有找到任何解决方案java.lang.NoSuchFieldError:IS_SECURITY_ENABLEDCDH包包含冲突的jar(jsp-api-2.1-6.1.14.jar、jasper-runtime-5.5.23.jar)。jsp-api-2.1-6.1.14.jar和jasper-runtime-5.5.23.jar包含不同版本的org.apache.Constants.java类。jasper-runtime-*jar不包含字段“IS_SECURITY_ENABLED”,因此jetty在尝试访问类org.apache.Constan

hadoop - cloudera navigator Multi-Tenancy 能力

简而言之,可以为Multi-Tenancy上下文配置ClouderaNavigator吗?详细地说,我们有一个包含许多业务实体的数据湖(Hadoop集群),我们希望每个业务实体使用cloudera导航器查看、管理和访问它自己的数据。网上没查到资料,ui好像也没有这个选项。提前致谢 最佳答案 您可以使用ClouderaManager创建Kerberos主体和key表,您可以将其配置为访问所需的目录。阅读:ConfiguringAuthenticationinClouderaManager

security - 如何将cloudera apache sentry与open ldap集成

我的CDH5.10快速启动VM中有LDAP用于开发,我已经在其中启动了Sentry服务。现在我想将ApacheSentry与LDAP集成。请让我知道这是否可行,如果可行,请指导我完成解决方案。 最佳答案 是的,可以将Sentry与LDAP集成。说明可以在这里找到:ConfiguringLDAPGroupMappingsUsingLDAPUsername/PasswordAuthenticationwithHiveServer2EnablingSentryAuthorizationforImpalaConfiguringtheSent

hadoop - Sqoop 导入错误 : UnsupportedClassVersionError CDH 5. 16

我在rhel7系统上运行CDH5.16。我使用软件包安装了CDH。当我尝试从位于远程服务器的MySQL服务器运行Sqoop导入作业时,出现以下错误:Warning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$ACCUMULO_HOMEtotherootofyourAccumuloinstallation.19/06/0318:39:43INFOsqoop.Sqoop:RunningSqoopversion:1.4.6-cdh5.16.119/06/0318:39:43WARNtool.

hadoop - 使用 Spark 通过 Cloudera Hadoop 从 Cassandra 读取数据

范围是从HDFS读取,在Spark中过滤并将结果写入Cassandra。我正在使用SBT打包和运行。问题来了:从HDFS读取到Spark需要在我的sbt构建文件中添加以下行。libraryDependencies+="org.apache.hadoop"%"hadoop-client"%"2.0.0-cdh4.5.0"但是,通过读写CassandravalcasRdd=sc.newAPIHadoopRDD(job.getConfiguration(),classOf[ColumnFamilyInputFormat],classOf[ByteBuffer],classOf[SortedM

hadoop - 在cloudera上提交hadoop作业

我想知道我们是否可以在亚马逊上设置一个cloudera集群,并从我的本地linux启动一个hadoop作业,而无需通过ssh进入亚马逊的节点。有没有客户端之类的东西来做这种沟通? 最佳答案 以下教程中的技巧确实有效。仅在他的指导下,您应该能够在20分钟内建立一个工作的Hadoop集群,从冷铁到生产就绪:HadoopQuickstart:BuildaClusterInTheCloudIn20Minutes真的值得一试。 关于hadoop-在cloudera上提交hadoop作业,我们在St

hadoop - CDH5 上的启动/停止 hadoop hdfs/mapred 脚本在哪里

CDH4的文档引用了/etc/init.d/hadoop-*脚本,但这些在CDH5中不再存在。我已经仔细阅读了文档,但未能成功找到/理解什么是CDH5等价物。我能找到的最接近的是SCM经理:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM5/latest/Cloudera-Manager-Administration-Guide/cm5ag_agents.html将不胜感激新流程(/es)的指针和解释。 最佳答案 我在Cloudera用户的邮件列表上收

java - 无法通过 Java API 访问 HDFS (Cloudera-CDH4.4.0)

我正在尝试使用Java代码访问我的HDFS,但我无法让它工作...经过2天的挣扎,我认为是时候寻求帮助了。这是我的代码:Configurationconf=newConfiguration();conf.addResource(newPath("/HADOOP_HOME/conf/core-site.xml"));conf.addResource(newPath("/HADOOP_HOME/conf/hdfs-site.xml"));FileSystemhdfs=FileSystem.get(conf);booleansuccess=hdfs.mkdirs(newPath("/user