草庐IT

hdfs_clusters

全部标签

java - 安装Github Project Cascading/vagrant-cascading-hadoop-cluster 出错

我开始安装vagrant-cascading-hadoop-clustergithub项目,但是出现了一些错误,无法结束安装。当我做“vagrantup”时sina@linux:/media/sina/passport/vagrant-cascading-hadoop-cluster$sudovagrantupBringingmachine'hadoop1'upwith'virtualbox'provider...Bringingmachine'hadoop2'upwith'virtualbox'provider...Bringingmachine'hadoop3'upwith'vir

hadoop - hadoop mapreduce是否打开hdfs中的临时文件

当map-reduce作业运行时,它必须创建大量临时文件来存储各种映射器和缩减器的结果。那些临时文件是写到hdfs.如果是,namenode的editlog可能会在短时间内变得巨大,因为它记录了每个事务,如文件打开、关闭等。可以通过直接写入native文件系统而不是hdfs来避免这种情况吗?想法? 最佳答案 mapreduce代码的中间结果已写入本地文件系统而非hdfs,并在作业完成后自动删除。我的意思是说映射器的输出已经写入本地文件系统,具体位置可以配置,但默认情况下它写入/tmp/hadoop-username*位置

apache - 如何配置 Apache Flume 1.4.0 从 Twitter 获取数据并放入 HDFS(Apache Hadoop 2.5 版)?

我使用的是Ubuntu14.04我的配置文件如下:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent.sources.Twitter.channels=MemChannelTwitterAgent.sources.Twitter.consumerKey=Q5JF4gVmrahNk93C913GjgJgBT

hadoop - 如何从另一台机器访问我的 HDFS 文件系统?

我正在运行创建hdfs目录并将文件放入其中的程序。在java程序中,我正在使用这样的congiuraion。Configurationconf=newConfiguration();conf.set("fs.default.name","hdfs://localhost:9000");conf.set("mapred.job.tracker","localhost:8021");但是现在我在另一台机器上的同事想要复制我的HDFS中的文件。为此,我确定他必须连接到我的HDFS。那么我的同事如何连接到我的HDFS并从中复制文件。我的同事使用以下代码访问我的HDFS。Configuratio

apache - 格式化 Apache Flume HDFS 序列化程序

我刚刚开始使用flume,需要将一些header插入到hdfs接收器中。虽然格式错误,但我可以正常工作,而且我无法控制列。使用这个配置:a1.sources=r1a1.sinks=k1a1.channels=c1a1.sources.r1.type=syslogudpa1.sources.r1.host=0.0.0.0a1.sources.r1.port=44444a1.sources.r1.interceptors=i1i2a1.sources.r1.interceptors.i1.type=org.apache.flume.interceptor.HostInterceptor$B

Hadoop hdfs 无法定位文件

我正在尝试使用以下命令将文件复制到hdfs。文件名是googlebooks-eng....等等....当我尝试在hdfs中列出文件时,我没有看到列出的文件名。实际文件名是什么?hadoop-user@hadoop-desk:~/hadoop$bin/hadoopdfs-put/home/hadoop-user/googlebooks-eng-all-1gram-20120701-0/user/premahadoop-user@hadoop-desk:~/hadoop$bin/hadoopdfs-ls/user/premaFound1items-rw-r--r--1hadoop-user

hadoop - 集群配置和hdfs

我正在尝试按照本教程配置我的集群-https://developer.yahoo.com/hadoop/tutorial/module2.htmlfs.default.namehdfs://192.168.71.128:9000dfs.data.dir/home/hadoop-user/hdfs/datadfs.name.dir/home/hadoop-user/hdfs/name我还使用以下命令将本地文件复制到/user/prema/hadoop-user@hadoop-desk:~/hadoop$bin/hadoopdfs-put/home/hadoop-user/googlebo

mongodb - 将 HDFS 数据移动到 MongoDB

我正在尝试将HDFS数据移动到MongoDB。我知道如何使用sqoop将数据导出到mysql。我认为我不能将sqoop用于MongoDb。我需要帮助了解如何做到这一点。 最佳答案 本节将使用MongoOutputFormat类从HDFS实例加载数据进入MongoDB集合。Gettingready开始使用MongoHadoop适配器的最简单方法是克隆Mongo-Hadoop来自GitHub的项目并构建为特定版本的Hadoop配置的项目。一个Git必须安装客户端才能克隆此项目。本节假设您使用的是Hadoop的CDH3发行版。官方Git客

hadoop - 如何使用 Flume 在源上执行预处理并在 hdfs 接收器中保留真实文件名

我是ApacheFlume的新手,我很难理解它的确切工作原理。为了说明我的问题,所以我说明了我的需求和我做了什么。我想在csv文件目录(这些文件每5分钟构建一次)和HDFS集群之间配置一个流。我确定“假脱机目录”源和HDFS接收器是我需要的。那就是给我这个flume.conf文件agent.sources=seqGenSrcagent.channels=memoryChannelagent.sinks=hdfsSink#Foreachoneofthesources,thetypeisdefinedagent.sources.seqGenSrc.type=spooldiragent.so

Spring-xd 不会在 HDFS 上写入来自 Twitter 的流

我正在写我的期末论文,但我对Spring-xd有疑问:我从我的xd-shell运行:streamcreate--namecyrustweets--definition"twitterstream--track='mileycyrus,mileycyrus'|log"--deploy而且它有效。我的xd-singlenode向我显示推文。但是当我尝试在HDFS上写入时:streamcreate--namecyrustweets--definition"twitterstream--track='mileycyrus,mileycyrus'|hdfs"--deployxd-singleno