Hdfs

hadoop - 使用 tHDFSPut 的简单 Talend 作业因连接被拒绝而失败

我创建了一个Talend作业，使用tHDFSPut将一个简单的文本文件(webapp.log，50KB)上传到HDFS。目录和文件已在HDFS中成功创建，但在上传文件内容期间，我以某种方式重现了Connectionrefused:nofurtherinformation(请参阅末尾的日志)，因此上传失败(即创建的文件保持为空)。HDFS在ClouderaQuickstartVM中运行。tHDFSComponent中的用户名设置为“cloudera”并且应该可以工作，因为它是默认配置的一部分。对于为什么我收到“连接被拒绝”有什么建议吗？我尝试了什么ClouderaManager表示服务h

hadoop - 在 MapReduce 作业中使用之前，Amazon EMR 框架是否从 S3 复制数据

我注意到当输入位置是S3中的文件时，在调用EMR作业和实际开始数据的mapreduce处理之间需要等待很长时间。我的问题是，EMR是直接在驻留在nativeS3文件系统中的数据上运行，还是将数据复制到已配置的EC2机器(在EMR集群中)的HDFS集群中，在这种情况下，它会占用大量资源复制数据的时间？最佳答案 S3是一种存储机制，肯定不能处理数据。因此，在MR作业中处理之前，必须将数据复制到EC2节点。关于hadoop-在MapReduce作业中使用之前，AmazonEMR框架是否从S

MapReduce hadoop section 和实长时 amazon-s3 hdfs amazon-emr

java - 将文件从 HDFS 复制到 Windows 机器时出错

有一个安装并运行着Hadoop的Linux虚拟机。在Eclipse中运行的Java应用程序可以从HDFS检索数据。如果我在VM内将文件复制到HDFS或从HDFS复制文件，一切正常。但是当我从我的Windows物理机上运行该应用程序时，我遇到了下一个异常:WARNhdfs.DFSClient:Failedtoconnectto/127.0.0.1:50010forblock,addtodeadNodesandcontinue.java.net.ConnectException:Connectionrefused:nofurtherinformation.CouldnotobtainBP-

时出 Windows section 34 code java hadoop hdfs cloudera

hadoop - PIG 中是否有 HBaseStorage 的替代方案

我在pig脚本中使用带有-caching选项的HBaseStorage，如下所示HBaseStorage('countDetails:ansCountcountDetails:divCountcountDetails:unansCountcountDetails:engCountcountDetails:ineffCountcountDetails:totalCount','-caching1000');我可以看到这反射(reflect)在我的job.xml中但我可以看到它没有时间差异我正在处理1000万条记录并将大约160mb的数据存储到HBase中。当我将结果存储在hdfs中时，处

HBaseStorage hadoop section countDetails 中设 hbase hdfs apache-pig

database - 将数据从 HDFS 加载到 Vertica

从HDFS加载数据到vertica时出现以下错误我只是停止了以前工作的数据库并在Vertica中创建了新数据库。然后我跑了vsql-f[AggregateFunctions.sql,AnalyticFunctions.sql,FilterFunctions.sql,JavaFunctions.sql,JavaUDLFunctions.sql,ParserFunctions.sql,SourceFunctions.sql,TransformFunctions.sql]当我尝试使用以下命令从HDFS加载数据时COPYexploded001SOURCEHdfs(url='http://had

database Vertica section code sql hadoop hdfs webhdfs

没有 HDFS 存储的 Hadoop Namenode

我已经安装了一个总共有3台机器的hadoop集群，其中2个节点充当数据节点，1个节点充当名称节点和一个数据节点。我想澄清一些关于hadoop集群安装和架构的疑虑。这是我正在寻找答案的问题列表----我在集群中上传了一个大约500mb大小的数据文件，然后检查了hdfs报告。我注意到我制作的名称节点在hdfs中也占用了500mb大小，以及复制因子为2的数据节点。这里的问题是我不希望名称节点在其上存储任何数据，简而言之，我不希望它作为数据节点工作，因为它还存储我正在上传的文件。那么有什么办法让它只充当MasterNode而不是datanode呢？我尝试在名称节点上运行命令hadoop-dae

Namenode Hadoop section 充当节点 cluster-computing biginsights

hadoop - OSX 上 Hortonworks 沙盒上的 Spring XD

我正在尝试使用xd-singlenode和xd-shell将SpringXD流存储到Hortonworks沙箱版本2.0。没有创建xd目录，也没有流存储在Hortonworkshadoophdfs中。环境:AppleOSX10.9.3，HortonworksSandbox在OracleVirtualbox(RedHat64位)中运行，使用桥接模式网络。我在我的WiFi路由器中为VirtualboxMAC地址分配了一个固定的IP地址(192.168.178.30)。当我使用OSXSafari浏览到192.168.178.30:8000时，我可以使用Hortonworks菜单，例如文件浏览

Hortonworks hadoop code hdfs osx-mavericks hortonworks-data-platform spring-xd

hadoop - 命令用法 :when to use hadoop fs and hdfs dfs

正如标题所说，我很困惑何时使用以“hdfsdfs”和“hadoopfs”开头的命令仅供引用，我是使用cloudera4.6quickstartvm的hadoop新手。最佳答案下面是三个看似相同但有细微差别的命令hadoopfs{args}hadoopdfs{args}hdfsdfs{args}hadoopfsFS与通用文件系统相关，它可以指向任何文件系统，如本地、HDFS等。因此，当您处理不同的文件系统(如LocalFS、HFTPFS、S3FS等)时，可以使用它hadoopdfsdfs非常特定于HDFS。将适用于与HDFS相关的

hadoop 用法 strong section hdfs cloudera

hadoop - 谁在hadoop中拆分文件？是工作追踪器吗？

我想知道当客户端将数据存储到hdfs时，究竟是谁执行将大文件拆分成较小块的任务？客户端是否直接将数据写入DataNode？如果是这样，数据何时拆分为64MB或128MB？最佳答案 JobClient做的不是工作跟踪器JobClientcomputesinputsplitsonthedatalocatedintheinputpathontheHDFSspecifiedwhilerunningthejob.thearticlesaysthenJobClientcopiestheresources(jarsandcomputedinpu

追踪器 hadoop section the hdfs

java - HDFS是否将不可拆分文件存储在一个数据节点中？

对于不可拆分的文件，如GZIP，将只有一个map作业，因为GZIP文件不可拆分。是否有任何选项或优化将此类文件的所有block存储在一个数据节点中，以便我们至少可以节省网络带宽？最佳答案将gzip文件的HDFSblock大小增加到大于文件大小应该可以解决问题。有关设置每个文件的HDFSblock大小的更多信息，请参阅此answer 关于java-HDFS是否将不可拆分文件存储在一个数据节点中？，我们在StackOverflow上找到一个类似的问题： htt

点中 java section stackoverflow questions hadoop compression hdfs

48 49 505152 53 54