hdfs_rtp

hadoop - 不使用 HDFS 时的数据局部性

当您为Hadoop的Map/Reduce部分提供不同于HDFS的存储(如MySql服务器等)时，它的数据局部性特性会发生什么变化？换句话说，我的理解是HadoopMap/Reduce使用数据局部性来尝试在数据所在的同一节点上启动map任务，但是当数据存储在sqlsever中时，任务节点上没有本地数据，因为所有数据都在sqlserver节点中。那么在那种情况下我们会丢失数据局部性还是数据局部性的定义正在改变？如果它改变了，新的定义是什么？最佳答案如果数据不在集群中，则没有数据局部性。必须从远程源复制所有数据。这与任务无法在包含HD

hadoop - 是否可以将 Hadoop Counter 数据保存到 HDFS 中？

我想以编程方式使用计数器数据。这可能吗？数据可以保存在HDFS中。最佳答案在作业的主要功能中，作业完成后，您可以通过编程方式从作业中获取计数器，然后将它们保存到HDFS中。所以您的主要代码将如下所示:...job.waitForCompleteion();//readcounterslookssomethinglikethis:Countersc=job.getCounters();Countercnt=c.findCounter("YouCounterName");//counterhasgetName()andgetValu

Counter hadoop section stackoverflow questions

hadoop - HDFS如何修改数据

如果HDFS不允许修改文件，HBase怎么存储和修改数据？这个问题很难找到答案，因为结果大多是面向HBase物理数据格式的。但是我找不到HBase如何解决HHDFS文件的不可变性问题？最佳答案 HBase以索引的形式将数据存储在HDFS中。将事情过于简单化，HDFS文件将键按排序顺序存储，因此可以快速查找特定键。HBase数据存储在RegionServers(RS)中进行处理。在RS中，key首先写入内存存储(称为memstore)。memstore存储新键/更新和删除。在一定的阈值之后，这些键作为新的索引文件被推送到HDFS。更

hadoop HDFS section HBase blog

java - 如何在 Hadoop HDFS 目录中移动文件？

我需要将文件从一个HDFS目录移动到另一个HDFS目录。我想检查是否有一些更简单的方法(一些HDFSAPI)来完成相同的任务，除了InputStream/OutputStream？我听说过FileSystem.rename(srcDir,destDir);但不确定这是否会删除原始src目录。我不想删除原来的目录结构，只是将文件从一个文件夹移动到另一个目录。例如inputDir-/testHDFS/input/*.txtdestDir-/testHDFS/destination移动文件后，目录应如下所示:-inputDir-/testHDFS/inputdestDir-/testHDFS

何在 Hadoop section code testHDFS java mapreduce hdfs

csv - 如何创建具有多个 hdfs 文件的 Hive 表

所以基本上我想创建一个包含csv文件的表我试过这样的事情，其中文件名彼此仅相差最后两位:CREATEEXTERNALTABLEpageviews(page_datestring,sitestring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY';'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'/user/hue/201401/pageviews/supersite_1046_201401**.csv';对我来说，这个语法看起来不错，但是当我执行它时，我得到以下信息:Erroroccurredexecutin

Hive hdfs section blockquote LOCATION csv hadoop

xml - Impala 可以查询存储在 Hadoop/HDFS 中的 XML 文件吗

我正在研究Hadoop/Impala组合是否能满足我的归档、批处理和实时即席查询要求。我们会将XML文件(格式良好并符合我们自己的XSD模式)持久化到Hadoop中，并使用MapReduce处理日终批处理查询等。对于需要低延迟和相对高延迟的临时用户查询和应用程序查询我们正在考虑Impala的性能。我想不通的是Impala如何理解XML文件的结构，以便它可以有效地查询。Impala能否用于以有意义的方式跨XML文档进行查询？提前致谢。最佳答案 Hive和Impala实际上并没有处理XML文件的机制(这很奇怪，考虑到大多数数据库都支持

Impala Hadoop item gt lt xml bigdata

hadoop - 将新组添加到 hdfs

SoThereishdfs:hdfsuser/groupexistshadoopcluster还有其他用户分配给hdfs，它提供对文件系统的写入和读取访问权限如何创建一个新组并将现有用户添加到该组，并具有对文件系统的读写访问权限？最佳答案 HDFS在其文件系统中不维护单独的用户/组，而是像unix一样在底层操作系统中使用用户/组。如果您创建一个也可以在hdfs中使用的unix用户/组。无需在集群所有节点创建用户/组，只需要在访问hdfs文件系统的节点创建用户/组即可。在unix中创建用户/组后。使用以下命令更改文件/目录的所有者:

hadoop hdfs section

hadoop - 如何使用 gedit 打开 HDFS 输出文件？

我已经在我的系统(Ubuntu14.04)中成功安装并执行了一个mapreduce程序。我可以看到输出文件，hadoopuser@arul-PC:/usr/local/hadoop$bin/hadoopdfs-ls/user/hadoopuser/MapReduceSample-outputFound3items-rw-r--r--1hadoopusersupergroup02014-07-0916:10/user/hadoopuser/MapReduceSample-output/_SUCCESSdrwxr-xr-x-hadoopusersupergroup02014-07-0916

hadoop gedit hadoopuser code MapReduceSample-output hdfs ubuntu-14.04

hadoop - sink.hdfs writer 在我的文本文件中添加垃圾

我已成功配置flume以将文本文件从本地文件夹传输到hdfs。我的问题是当这个文件被传输到hdfs时，一些不需要的文本“hdfs.write.Longwriter+binarycharacters”在我的文本文件中有前缀。这是我的flume.confagent.sources=flumedumpagent.channels=memoryChannelagent.sinks=flumeHDFSagent.sources.flumedump.type=spooldiragent.sources.flumedump.spoolDir=/opt/test/flume/flumedump/age

本文 hadoop agent flumeHDFS hdfs flume flume-ng

hadoop - 更改 Hadoop HDFS 数据节点服务器的 IP 地址并避免 block 池错误

我正在使用Hadoop的cloudera发行版，最近不得不更改集群中几个节点的IP地址。更改后，在其中一个节点(旧IP:10.88.76.223，新IP:10.88.69.31)上尝试启动数据节点服务时出现以下错误。InitializationfailedforblockpoolBlockpoolBP-77624948-10.88.65.174-13492342342(storageidDS-820323624-10.88.76.223-50010-142302323234)servicetohadoop-name-node-01/10.88.65.174:6666org.apache

hadoop code pre hdfs cloudera cloudera-manager

43 44 454647 48 49