hdfs_clusters

hadoop - 如何告诉 Hadoop 在任务被终止时不要从 HDFS 中删除临时目录？

默认情况下，hadoopmap任务将处理过的记录写入位于${mapred.output.dir}/_temporary/_${taskid}的临时目录中的文件中。这些文件一直放在这里，直到FileCommiter将它们移动到${mapred.output.dir}(任务成功完成后)。我有这样的情况，在maptask的setup()中，我需要在上面提供的临时目录下创建文件，在那里我写了一些稍后在其他地方使用的过程相关数据。但是，当hadoop任务被终止时，临时目录将从HDFS中删除。任何人都知道是否可以告诉Hadoop在任务被终止后不删除该目录，以及如何实现？我想应该提供一些我可以配置的

HDFS 0.22.0 中的 java.io.EOFException

我正在使用以下方法从文件中读取字节:FileSystemfs=config.getHDFS();try{Pathpath=newPath(dirName+'/'+fileName);byte[]bytes=newbyte[(int)fs.getFileStatus(path).getLen()];in=fs.open(path);in.read(bytes);result=newDataInputStream(newByteArrayInputStream(bytes));}catch(Exceptione){e.printStackTrace();if(in!=null){try{i

EOFException HDFS code DFSInputStream java file-io hadoop

hadoop/HDFS : Is it possible to write from several processes to the same file?

f.e.创建文件20bytes.第一个进程将从0写入4第二个从5到9等等我需要它来使用我的MapReduce并行创建一个大文件。谢谢。附言也许它还没有实现，但总的来说是可能的——请指出我应该挖掘的地方。最佳答案您能否解释一下您计划在创建此文件后对其执行的操作。如果您需要将它从HDFS中取出然后使用它，那么您可以让HadoopM/R创建单独的文件，然后使用像hadoopfs-cat/path/to/output/part*>这样的命令localfile将各个部分组合成一个文件并保存到本地文件系统。否则，您无法让多个写入器打开同一个

processes possible section 读取器 HDFS hadoop

hadoop - Hive:数据未从 .csv 文件(存储在 hdfs 上)复制到 Hive 表中

学习配置单元，创建一个表并尝试从csv文件插入数据，没有出现错误，但插入的数据都是空值(不是.csv文件中的实际数据)。.csv输入文件中有100条记录(文件上传到hdfs)。请帮助我，在此先感谢。以下是执行的命令序列hive>CREATETABLEIFNOTEXISTSCampaignDB(isanoint,MemberNamestring,cityordiststring,statestring,mobileint,emailstring,memtypestring)comment'DocCampaigndata'rowformatdelimitedstoredastextfile

Hive hadoop string NULL CampaignDB

hadoop - 如何从hdfs获取特定数据？

我需要一些关于下面场景的解释场景:-->假设在一个1000PB的文件中有世界上每个人的完整记录，我们将该文件传输到HDFS(假设Reflection_factor=9bl_size=128MB)并将该文件分成'n'个block。假设客户要求我们使用一些独特的约束(键)来搜索特定的人。让我们假设这个人的数据在第n个block中。我的问题是MapReduce函数在这种情况下将如何工作？是直接读取第n个block还是读取第一个节点到第n个节点？最佳答案 HDFS适合顺序访问，而HBase适合单次随机选择按键范围扫描可变架构正如@Winn

hadoop hdfs section 该文 code apache-pig

hadoop - 内部HDFS文件压缩

我正在寻找HDFS中的默认压缩。我看到了this但我不希望我的文件有类似gzip的扩展名(事实上，它们应该像没有压缩一样可以访问)实际上，我正在寻找的正是选项“压缩内容以保存磁盘空格”在Windows上。此选项在内部压缩文件，但可以像访问普通文件一样访问它们。任何想法都会有所帮助。谢谢最佳答案这在标准HDFS实现中不存在，您必须自己管理它。您必须管理自己的压缩。然而，aproprietaryimplementationofHadoop,MapR,doesthis,如果解决这个问题对您来说足够重要。在使用hadoop一段时间后，这

hadoop HDFS section code compression

java - 使用Java以编程方式读取存储在HDFS中的文本文件的内容

如何运行这个简单的Java程序来从存储在HDFS目录/字中的文本文件中读取字节？我是否需要为此目的创建一个jar文件？importjava.io.*;importjava.net.MalformedURLException;importjava.net.URL;importorg.apache.hadoop.*;importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;publicclassfilesystemhdfs{publicstaticvoidmain(Stringargs[])throwsMalformedUR

本文 java section 34 import hadoop hdfs

Hadoop:指定 HDFS 的最大大小/容量

我正在运行单节点Hadoop部署。我知道我的应用程序需要多少数据，我可以设置(和重新设置)HDFS使用的最大容量吗？我已经尝试了以下方法，但似乎无法实现。检查hdfs-site.xml和core-site.xml的默认值尝试了以下内容hadoopnamenode-formathdfsdfsadmin-setSpaceQuota2g/hdfsdfsadmin-report#stillshowstheoldcapacity编辑:只想添加现有容量，我的名称节点以安全模式出现。所以我不能做像-format,-rm这样的操作，因为我可以做只读操作。我可以接受丢失所有数据，我只是想缩小现有的HDF

Hadoop HDFS section code

java - 谁能给我一个关于如何有效地将大量小文件从本地合并到 HDFS 中的整个文件的建议

谁能给我一个关于如何有效地将大量小文件从普通文件系统合并到HDFS中的整个文件的建议。最佳答案如果你的文件存在于Linux上，你可以试试这个命令cat*.txt>merge.log|catmerge.log|hadoopfs-put-mergedFile.log 关于java-谁能给我一个关于如何有效地将大量小文件从本地合并到HDFS中的整个文件的建议，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

java HDFS section stackoverflow questions hadoop streaming

hadoop - 我如何使用 sqoop 从 HDFS 导入并在导入时合并表的两列？

我可以在导入或导出时合并两列或多列吗？假设我在DBMSID、FIRST_NAME、LAST_NAME中有3列，我想将其加载为ID、NAME只有两列。那我该怎么做呢？最佳答案试试下面的选项sqoopimport--connect--username--password--query"selectID,CONCAT(FIRST_NAME,LAST_NAME)fromtable"--target-dir因为你没有提到你的数据库和表名，所以我用通用形式写了。关于hadoop-我如何使用sq

入时 hadoop section NAME stackoverflow hdfs sqoop sqoop2

135 136 137138139 140 141