hdfs

hadoop - HBase:复制是如何工作的？

我目前正在将HBase作为数据存储进行评估，但有一个问题没有得到解答:HBase在多个节点上存储同一对象的多个副本(也称为复制)。由于HBase具有所谓的强一致性(与最终一致性相反)，它保证每个副本在读取时返回相同的值。根据我对HBase概念的理解，在读取值时，首先会向HBase主服务器查询提供数据的(必须有多个)RegionServer。然后我可以在没有主人发明的情况下发出读写请求。那么复制如何工作？HBase如何提供一致性？写操作在内部是如何工作的？写操作阻塞，直到所有副本都被写入(=>同步复制)。如果是，谁管理此传输？HDFS如何进入游戏？我已经阅读了BigTable-Paper

hadoop - "HDFS lacks random read and write access"是什么意思？

任何文件系统都应该提供一个API来访问它的文件和目录等。那么，“HDFS缺乏随机读写访问”是什么意思？所以，我们应该使用HBase。最佳答案默认的HDFSblock大小为128MB。所以你不能在这里读一行，那里读一行。您总是读写128MB的block。当您要处理整个文件时，这很好。但这使得HDFS不适用于某些应用程序，例如您希望使用索引来查找小记录的地方。另一方面，HBase对此非常有用。如果你想读一条小记录，你只会读那条小记录。HBase使用HDFS作为其后备存储。那么它如何提供高效的基于记录的访问呢？HBase将表从HDFS

amp hadoop section HDFS 小记 hbase

hadoop - 在 Yarn 集群上运行 Spark 作业

我想在HadoopYARN集群模式下运行我的spark作业，我正在使用以下命令:spark-submit--masteryarn-cluster--driver-memory1g--executor-memory1g--executor-cores1--classcom.dc.analysis.jobs.AggregationJobsparkanalitic.jarparam1param2param3我在下面收到错误，请提示出了什么问题，命令是否正确。我正在使用CDH5.3.1。Diagnostics:Applicationapplication_1424284032717_0066f

hadoop Spark java section apache-spark hdfs hadoop-yarn cloudera

hadoop - 合并 hdfs 文件

我在HDFS中有1000多个文件可用，命名约定为1_fileName.txt到N_fileName.txt。每个文件的大小为1024MB。我需要将这些文件合并到一个(HDFS)中并保持文件的顺序。说5_FileName.txt应该只追加在4_fileName.txt之后执行此操作的最佳和最快方法是什么。有没有什么方法可以在不复制数据节点之间的实际数据的情况下执行这种合并？例如:获取此文件的block位置并使用这些block位置在名称节点中创建一个新条目(文件名)？最佳答案没有有效的方法可以做到这一点，您需要将所有数据移动到一个节

hadoop hdfs code section fileName

hadoop - 将数据写入 Hadoop

我需要从外部源(如Windows框)将数据写入Hadoop(HDFS)。现在我一直在将数据复制到名称节点并使用HDFS的put命令将其摄取到集群中。在我浏览代码时，我没有看到执行此操作的API。我希望有人能告诉我我错了，并且有一种简单的方法可以针对HDFS对外部客户端进行编码。最佳答案 Java中有一个API。您可以通过在项目中包含Hadoop代码来使用它。JavaDoc总的来说很有帮助，但当然你必须知道你在找什么*g*http://hadoop.apache.org/common/docs/对于您的特定问题，请查看:http:/

hadoop section apache hdfs

hadoop - 如何在 hdfs 命令上计算文件中的行数？

我在HDFS上有一个文件，我想知道有多少行。(测试文件)在linux中，我可以这样做:wc-l我可以用“hadoopfs”命令做类似的事情吗？我可以打印文件内容:hadoopfs-text/user/mklein/testfile我怎么知道我有多少行？我想避免将文件复制到本地文件系统然后运行wc命令。注意:我的文件是使用snappycompression压缩的，这就是为什么我必须使用-text而不是-cat 最佳答案文件总数:hadoopfs-ls/path/to/hdfs/*|wc-l总行数:hadoopfs-cat/pat

何在 hadoop section strong code

Hadoop:Datanode进程被杀死

我目前正在使用Hadoop-2.0.3-alpha，在我可以完美地使用HDFS后(将文件复制到HDFS，从外部框架获得成功，使用webfrontend)，在我的VM重新启动后，数据节点过程在一段时间后停止。namenode进程和所有yarn进程都可以正常工作。我在另一个用户下的文件夹中安装了Hadoop，因为我还安装了Hadoop0.2，它也运行良好。查看所有数据节点进程的日志文件，我得到以下信息:2013-04-1116:23:50,475WARNorg.apache.hadoop.util.NativeCodeLoader:Unabletoloadnative-hadooplibr

杀死 Datanode hadoop apache hdfs

java - 从 Java 写入 HDFS，得到 "could only be replicated to 0 nodes instead of minReplication"

我已经下载并启动了Cloudera的HadoopDemoVMforCDH4(运行Hadoop2.0.0)。我正在尝试编写一个Java程序，它将在我的Windows7机器(运行VM的同一机器/操作系统)上运行。我有一个示例程序，例如:publicstaticvoidmain(String[]args){try{Configurationconf=newConfiguration();conf.addResource("config.xml");FileSystemfs=FileSystem.get(conf);FSDataOutputStreamfdos=fs.create(newPat

minReplication replicated hadoop java apache hdfs

hadoop - Hadoop 输入的最佳可拆分压缩 = bz2？

我们意识到以GZip格式归档文件以供Hadoop处理并不是一个好主意，为时已晚。GZip不可拆分，为了引用，这里是我不会重复的问题:VerybasicquestionaboutHadoopandcompressedinputfilesHadoopgzipcompressedfilesHadoopgzipinputfileusingonlyonemapperWhycan'thadoopsplitupalargetextfileandthencompressthesplitsusinggzip?我的问题是:BZip2是允许Hadoop并行处理单个存档文件的最佳存档压缩吗？Gzip绝对不是，

hadoop strong noreferrer gzip hdfs bzip2

file - Hadoop 重命名文件

是否有一个简单的hadoop命令可以将文件(在HDFS中)的名称从其旧名称更改为新名称？最佳答案使用以下内容:hadoopfs-mvoldnamenewname 关于file-Hadoop重命名文件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/15870143/

命名 Hadoop section stackoverflow questions file hdfs

99 100 101102103 104 105