cloudera-quickstart-vm
全部标签 我在亚马逊上启动了一个EC2集群来安装cloudera...我安装并配置了它,并将一些Wiki页面View公共(public)快照加载到HDFS中。文件结构如下:projectcode,pagename,pageviews,bytes文件是这样命名的:pagecounts-20090430-230000.gzdatetime当从HDFS加载数据到Impala时,我是这样做的:CREATEEXTERNALTABLEwikiPgvws(project_codevarchar(100),page_namevarchar(1000),page_viewsint,page_bytesint)RO
我在一个运行Cloudera5.3的集群上工作,我已经按照所有说明创建了一个NFS网关并且它运行良好。我的问题是我仍然无法将HDFS目录视为Linux文件系统的一部分(这是RHEL6)。我不是UNIX管理员,所以我没有挂载目录的经验,而且我在网上找到的文档对解决这个特定问题没有帮助。我试过简单的mount/在作为NFS网关的机器上,但这没有用。当我尝试从另一台集群机器使用挂载时mount://我在网关服务器和HDFS中都看不到任何文件(尽管我可以使用hdfsdfs-ls轻松查看这些文件)。既然已经设置了NFS,我该如何实际将HDFS挂载为目录? 最佳答案
我创建了一个vagrant虚拟机并在上面安装了hadoop。只有一个服务器集群。但是当我尝试在机器上启动我的hadoop时,出现以下错误:mkdir:从master/127.0.1.1到localhost:9000的调用在连接异常时失败:java.net.ConnectException:连接被拒绝;有关详细信息,请参阅:http://wiki.apache.org/hadoop/ConnectionRefused还有想法?该机器被命名为master。服务器是Ubuntu。谢谢! 最佳答案 这是因为hdfs节点没有运行goto,cd
我想使用quickstartVM镜像创建一个Cloudera集群,您可以直接从cloudera的网页(http://www.cloudera.com/downloads/quickstart_vms/5-8.html)下载该镜像。我有三个虚拟机,我想有一个主机和两个从机。我已经对它们进行了配置,以便在3个虚拟机之间具有不同的主机名和DNS连接。但是,当我尝试添加新主机时,我通常会丢失来自其他机器的心跳,或者当它没有发生时,我会遇到版本不匹配和HDFS错误。那么,在尝试添加新主机之前,我应该做任何其他配置设置吗? 最佳答案 如果您想使
DoneMyHome工作到处搜索,但没有找到任何解决方案java.lang.NoSuchFieldError:IS_SECURITY_ENABLEDCDH包包含冲突的jar(jsp-api-2.1-6.1.14.jar、jasper-runtime-5.5.23.jar)。jsp-api-2.1-6.1.14.jar和jasper-runtime-5.5.23.jar包含不同版本的org.apache.Constants.java类。jasper-runtime-*jar不包含字段“IS_SECURITY_ENABLED”,因此jetty在尝试访问类org.apache.Constan
简而言之,可以为Multi-Tenancy上下文配置ClouderaNavigator吗?详细地说,我们有一个包含许多业务实体的数据湖(Hadoop集群),我们希望每个业务实体使用cloudera导航器查看、管理和访问它自己的数据。网上没查到资料,ui好像也没有这个选项。提前致谢 最佳答案 您可以使用ClouderaManager创建Kerberos主体和key表,您可以将其配置为访问所需的目录。阅读:ConfiguringAuthenticationinClouderaManager
我的CDH5.10快速启动VM中有LDAP用于开发,我已经在其中启动了Sentry服务。现在我想将ApacheSentry与LDAP集成。请让我知道这是否可行,如果可行,请指导我完成解决方案。 最佳答案 是的,可以将Sentry与LDAP集成。说明可以在这里找到:ConfiguringLDAPGroupMappingsUsingLDAPUsername/PasswordAuthenticationwithHiveServer2EnablingSentryAuthorizationforImpalaConfiguringtheSent
范围是从HDFS读取,在Spark中过滤并将结果写入Cassandra。我正在使用SBT打包和运行。问题来了:从HDFS读取到Spark需要在我的sbt构建文件中添加以下行。libraryDependencies+="org.apache.hadoop"%"hadoop-client"%"2.0.0-cdh4.5.0"但是,通过读写CassandravalcasRdd=sc.newAPIHadoopRDD(job.getConfiguration(),classOf[ColumnFamilyInputFormat],classOf[ByteBuffer],classOf[SortedM
我想知道我们是否可以在亚马逊上设置一个cloudera集群,并从我的本地linux启动一个hadoop作业,而无需通过ssh进入亚马逊的节点。有没有客户端之类的东西来做这种沟通? 最佳答案 以下教程中的技巧确实有效。仅在他的指导下,您应该能够在20分钟内建立一个工作的Hadoop集群,从冷铁到生产就绪:HadoopQuickstart:BuildaClusterInTheCloudIn20Minutes真的值得一试。 关于hadoop-在cloudera上提交hadoop作业,我们在St
我正在尝试使用Java代码访问我的HDFS,但我无法让它工作...经过2天的挣扎,我认为是时候寻求帮助了。这是我的代码:Configurationconf=newConfiguration();conf.addResource(newPath("/HADOOP_HOME/conf/core-site.xml"));conf.addResource(newPath("/HADOOP_HOME/conf/hdfs-site.xml"));FileSystemhdfs=FileSystem.get(conf);booleansuccess=hdfs.mkdirs(newPath("/user