草庐IT

hadoop - 使用 tHDFSPut 的简单 Talend 作业因连接被拒绝而失败

我创建了一个Talend作业,使用tHDFSPut将一个简单的文本文件(webapp.log,50KB)上传到HDFS。目录和文件已在HDFS中成功创建,但在上传文件内容期间,我以某种方式重现了Connectionrefused:nofurtherinformation(请参阅末尾的日志),因此上传失败(即创建的文件保持为空)。HDFS在ClouderaQuickstartVM中运行。tHDFSComponent中的用户名设置为“cloudera”并且应该可以工作,因为它是默认配置的一部分。对于为什么我收到“连接被拒绝”有什么建议吗?我尝试了什么ClouderaManager表示服务h

hadoop - 在 MapReduce 作业中使用之前,Amazon EMR 框架是否从 S3 复制数据

我注意到当输入位置是S3中的文件时,在调用EMR作业和实际开始数据的mapreduce处理之间需要等待很长时间。我的问题是,EMR是直接在驻留在nativeS3文件系统中的数据上运行,还是将数据复制到已配置的EC2机器(在EMR集群中)的HDFS集群中,在这种情况下,它会占用大量资源复制数据的时间? 最佳答案 S3是一种存储机制,肯定不能处理数据。因此,在MR作业中处理之前,必须将数据复制到EC2节点。 关于hadoop-在MapReduce作业中使用之前,AmazonEMR框架是否从S

java - 将文件从 HDFS 复制到 Windows 机器时出错

有一个安装并运行着Hadoop的Linux虚拟机。在Eclipse中运行的Java应用程序可以从HDFS检索数据。如果我在VM内将文件复制到HDFS或从HDFS复制文件,一切正常。但是当我从我的Windows物理机上运行该应用程序时,我遇到了下一个异常:WARNhdfs.DFSClient:Failedtoconnectto/127.0.0.1:50010forblock,addtodeadNodesandcontinue.java.net.ConnectException:Connectionrefused:nofurtherinformation.CouldnotobtainBP-

hadoop - PIG 中是否有 HBaseStorage 的替代方案

我在pig脚本中使用带有-caching选项的HBaseStorage,如下所示HBaseStorage('countDetails:ansCountcountDetails:divCountcountDetails:unansCountcountDetails:engCountcountDetails:ineffCountcountDetails:totalCount','-caching1000');我可以看到这反射(reflect)在我的job.xml中但我可以看到它没有时间差异我正在处理1000万条记录并将大约160mb的数据存储到HBase中。当我将结果存储在hdfs中时,处

database - 将数据从 HDFS 加载到 Vertica

从HDFS加载数据到vertica时出现以下错误我只是停止了以前工作的数据库并在Vertica中创建了新数据库。然后我跑了vsql-f[AggregateFunctions.sql,AnalyticFunctions.sql,FilterFunctions.sql,JavaFunctions.sql,JavaUDLFunctions.sql,ParserFunctions.sql,SourceFunctions.sql,TransformFunctions.sql]当我尝试使用以下命令从HDFS加载数据时COPYexploded001SOURCEHdfs(url='http://had

没有 HDFS 存储的 Hadoop Namenode

我已经安装了一个总共有3台机器的hadoop集群,其中2个节点充当数据节点,1个节点充当名称节点和一个数据节点。我想澄清一些关于hadoop集群安装和架构的疑虑。这是我正在寻找答案的问题列表----我在集群中上传了一个大约500mb大小的数据文件,然后检查了hdfs报告。我注意到我制作的名称节点在hdfs中也占用了500mb大小,以及复制因子为2的数据节点。这里的问题是我不希望名称节点在其上存储任何数据,简而言之,我不希望它作为数据节点工作,因为它还存储我正在上传的文件。那么有什么办法让它只充当MasterNode而不是datanode呢?我尝试在名称节点上运行命令hadoop-dae

hadoop - OSX 上 Hortonworks 沙盒上的 Spring XD

我正在尝试使用xd-singlenode和xd-shell将SpringXD流存储到Hortonworks沙箱版本2.0。没有创建xd目录,也没有流存储在Hortonworkshadoophdfs中。环境:AppleOSX10.9.3,HortonworksSandbox在OracleVirtualbox(RedHat64位)中运行,使用桥接模式网络。我在我的WiFi路由器中为VirtualboxMAC地址分配了一个固定的IP地址(192.168.178.30)。当我使用OSXSafari浏览到192.168.178.30:8000时,我可以使用Hortonworks菜单,例如文件浏览

hadoop - 命令用法 :when to use hadoop fs and hdfs dfs

正如标题所说,我很困惑何时使用以“hdfsdfs”和“hadoopfs”开头的命令仅供引用,我是使用cloudera4.6quickstartvm的hadoop新手。 最佳答案 下面是三个看似相同但有细微差别的命令hadoopfs{args}hadoopdfs{args}hdfsdfs{args}hadoopfsFS与通用文件系统相关,它可以指向任何文件系统,如本地、HDFS等。因此,当您处理不同的文件系统(如LocalFS、HFTPFS、S3FS等)时,可以使用它hadoopdfsdfs非常特定于HDFS。将适用于与HDFS相关的

hadoop - 谁在hadoop中拆分文件?是工作追踪器吗?

我想知道当客户端将数据存储到hdfs时,究竟是谁执行将大文件拆分成较小块的任务?客户端是否直接将数据写入DataNode?如果是这样,数据何时拆分为64MB或128MB? 最佳答案 JobClient做的不是工作跟踪器JobClientcomputesinputsplitsonthedatalocatedintheinputpathontheHDFSspecifiedwhilerunningthejob.thearticlesaysthenJobClientcopiestheresources(jarsandcomputedinpu

java - HDFS是否将不可拆分文件存储在一个数据节点中?

对于不可拆分的文件,如GZIP,将只有一个map作业,因为GZIP文件不可拆分。是否有任何选项或优化将此类文件的所有block存储在一个数据节点中,以便我们至少可以节省网络带宽? 最佳答案 将gzip文件的HDFSblock大小增加到大于文件大小应该可以解决问题。有关设置每个文件的HDFSblock大小的更多信息,请参阅此answer 关于java-HDFS是否将不可拆分文件存储在一个数据节点中?,我们在StackOverflow上找到一个类似的问题: htt