草庐IT

hdfs_clusters

全部标签

hadoop - 使用 mrjob 读取多个 HDFS 文件或 S3 文件?

我有大量数据存储在HDFS系统(或者AmazonS3)中。我想用mrjob处理它。不幸的是,当运行mrjob并提供HDFS文件名或包含的目录名时,出现错误。比如这里我把数据存放在hdfs://user/hadoop/in1/目录下。为了测试,我的文件是hdfs://user/hadoop/in1/BCES_FY2014_clean.csv但在生产中我需要多个文件。文件存在:$hdfsdfs-ls/user/hadoop/in1/Found1items-rw-r--r--1hadoophadoop17716852015-12-0703:05/user/hadoop/in1/BCES_FY

hadoop - cluster.getJob 在 hadoop 中返回 null

publicvoidsetup(Contextcontext)throwsIOException,InterruptedException{Configurationconf=context.getConfiguration();org.apache.hadoop.mapreduce.Clustercluster=neworg.apache.hadoop.mapreduce.Cluster(conf);JobcurrentJob=cluster.getJob(context.getJobID());mapperCounter=currentJob.getCounters().findC

java - pig导入hdfs数据到hbase报错

我的集群版本是{hadoop2.7.1,hbase1.1.2,pig0.15}我尝试通过pig将hdfs数据导入hbase但我发现了问题,错误日志显示如下:ERROR1200:Pigscriptfailedtoparse:pigscriptfailedtovalidate:java.lang.RuntimeException:couldnotinstantiate'org.apache.pig.backend.hadoop.hbase.HBaseStorage'witharguments'[gprsinfo:Directiongprsinfo:Latitudegprsinfo:Long

hadoop - HDFS 连接操作 : Does it lead to increased seek time?

我试图了解HDFS如何实现concat操作并深入到以下部分code.在我看来,从这个实现来看,concat只是对目标文件的inode进行元操作,实际block没有移动。我在想这是否会导致碎片化+增加寻道时间,因为不同的block会位于磁盘上的不同位置(考虑磁盘)。这个假设是否正确?如果是,我们可以避免这种情况吗? 最佳答案 经过几次实验,我找到了自己问题的答案。在非常频繁的文件连接操作(每分钟约1k)之后,数据节点开始提示一天左右的block太多,这让我相信这确实会导致碎片化和磁盘上block数量的增加。我使用的解决方案是编写一个单

java - 加载数据到HDFS时出现一些错误

我有一个Java程序试图将数据加载到HDFS:publicclassCopyFileToHDFS{publicstaticvoidmain(String[]args){try{Configurationconfiguration=newConfiguration();Stringmsg="message1";Stringfile="hdfs://localhost:8020/user/user1/input.txt";FileSystemhdfs=FileSystem.get(newURI(file),configuration);FSDataOutputStreamoutputStr

windows - 在没有 Cygwin 的情况下,如何在 WIndows cmdline 上将文件传输到 Hadoop FS (HDFS)?

我对Hadoop的经验为零,但突然不得不在Windows上与Spark一起使用它。我的问题在这里被问过几次,但我永远无法完全理解我需要的语法,是这个。我正在尝试传输一个名为:gensortText.txt假设在c:\gensortText.txt我知道您可以使用hadoopfs-copyFromLocal。我试过这些东西:hadoopfs-copyFromLocalC:\gensortText.txthdfs://0.0.0.0:19000ERROR:RelativepathinabsoluteURI.hadoopfs-copyFromLocalC:\gensortOutText.tx

hadoop - 如何让映射器处理来自 HDFS 的整个文件

这是我读取包含Hl7消息的文件并使用Hapi迭代器(来自http://hl7api.sourceforge.net)遍历它们的代码Filefile=newFile("/home/training/Documents/msgs.txt");InputStreamis=newFileInputStream(file);is=newBufferedInputStream(is);Hl7InputStreamMessageStringIteratoriter=newHl7InputStreamMessageStringIterator(is);我想在map函数中完成这个吗?显然,我需要防止In

java - 将文件上传到 HDFS 或直接创建和写入 HDFS 文件哪个更快?

基本上我有一个程序,可以将文件上传到HDFS。这些文件在任务执行结束时上传。因此,发生的情况是许多任务同时(在执行结束时)将文件上传到HDFS,从而造成争用。文件大小小于一个HDFSblock(所以,基本上我的问题是,创建HDFS文件或将字符串附加到已创建的HDFS文件哪个开销更大? 最佳答案 我自己对此进行了测试,并注意到创建HDFS文件所花费的时间几乎与追加文件所花费的时间相同。这是假设写入的内容小于HDFSblock大小。如果您上传一个HDFS文件,这相当于创建HDFS文件并附加到它,所以这意味着它花费的时间是附加到它的两倍。

hadoop - HDFS 将本地文件放入 hdfs 但出现 UnresolvedAddressException

我想将一个70G的文件放入hdfs,所以我使用“put”命令来完成此操作。但是,我得到以下异常。我用相同的命令尝试了小尺寸文件,它有效。有谁知道是什么问题?谢谢!WARN[DataStreamerforfile/user/qzhao/data/sorted/WGC033800D_sorted.bam._COPYING_]hdfs.DFSClient(DFSOutputStream.java:run(628))-DataStreamerExceptionjava.nio.channels.UnresolvedAddressExceptionatsun.nio.ch.Net.checkAd

hadoop - 导入到 HDFS 或 Hive(直接)

堆栈:使用Ambari2.1安装HDP-2.3.2.0-2950来源是大约1.6TB和大约25个表的MSSQL数据库最终目标是检查现有查询是否可以在HDP上运行得更快多次导入数据的时间和可用性并不奢侈,因此,导入必须完成一次,并且需要对Hive表、查询等进行试验,例如,首先创建一个正常的,ORC中的分区表。如果还不够,请尝试索引等。可能,我们还会评估Parquet格式等4.作为4.的解决方案,我决定首先将表以Avro格式导入HDFS,例如:sqoopimport--connect'jdbc:sqlserver://server;database=dbname'--usernamesom