hdfs_rtp

hadoop - HDFS 加密 |远程异常

我正在使用以下命令在HDFS中创建加密区域。hdfscrypto-createZone-keyNametes3-path/user/root/zoneEncr但是发射命令，我得到的只是RemoteException:在屏幕上。我检查了日志并得到了以下异常2016-05-0611:05:07,073DEBUGPoolingClientConnectionManager-Connectionreleased:[id:62][route:{}->http://localhost:6083][totalkeptalive:0;routeallocated:0of5;totalallocated

hadoop - HDFS 我可以为每个文件指定复制因子以提高可用性吗

我是HDFS的新手，如果我的问题太天真了，我很抱歉。假设我们将文件存储在Hadoop集群中。有些文件非常受欢迎，并且会比其他文件更频繁地被请求(但不会经常将它们放入内存)。保留该文件的更多副本(副本)是值得的。我可以在HDFS中实现它吗？或者是否有解决此任务的最佳实践？最佳答案是的，您可以单独对整个集群/目录/文件执行此操作。您可以使用HadoopFSshell在每个文件的基础上更改复制因子(假设为3)。[sys@localhost~]$hadoopfs–setrep–w3/my/file或者，您可以更改目录下所有文件的复制因子

hadoop HDFS section strong code

hadoop - 从命令行从 HDFS 中删除文件夹

我正在为我的配置单元用户删除文件夹和文件。hadoopfs-rm-R-f-skipTrash/user/hive/warehouse/storage_20160315 最佳答案其中一种方法如下:hadoopfs-rm-r/user/hive/warehouse/storage_20160315这将删除storage_20160315的内容以及目录本身。或者你也可以使用HUE界面关于hadoop-从命令行从HDFS中删除文件夹，我们在StackOverflow上找到一个类似的问题：

hadoop HDFS section 20160315 storage

hadoop - HDFS 设置代表不起作用

我在HDFS中有以下文件夹:/data/2016/05/01并且该文件夹下还有很多文件，我尝试了以下命令来设置rep=2。hdfsdfs-setrep-w2/data/2016hdfsdfs-setrep-R2/data/2016但是当我导入文件到文件夹/data/2016/05/02时，复制仍然是3。最佳答案文件的复制设置在创建时设置，移动时不会更改。如果要将复制设置为“2”，请在创建时执行此操作(FileSystem.setReplication或通过配置设置dfs.replication)或运行hdfsdfs-setrep

hadoop HDFS section strong 2016

java - 如何在 hadoop 中序列化对象(在 HDFS 中)

我有一个HashMap>。我想将我的HashMap对象(hmap)序列化到HDFS位置，然后在Mapper和Reducers中反序列化它以供使用。为了在HDFS上序列化我的HashMap对象，我使用了普通的Java对象序列化代码如下，但出现错误(权限被拒绝)try{FileOutputStreamfileOut=newFileOutputStream("hashmap.ser");ObjectOutputStreamout=newObjectOutputStream(fileOut);out.writeObject(hm);out.close();}catch(Exceptione){

何在 hadoop java FileOutputStream code serialization mapreduce bigdata

hadoop - 多节点Hadoop集群HDFS压力测试

我已经设置了一个多节点Hadoop集群。我打算在不使用MR的情况下测试HDFS的性能。Hadoop测试jar中有这样的基准吗？谢谢最佳答案测试DFSIO:默认输出目录是/benchmarks/TestDFSIO在读取测试之前运行写入测试运行写测试的语法如下:TestDFSIO.0.0.4Usage:hadoopjar$HADOOP_HOME/hadoop-*test*.jarTestDFSIO-read|-write|-clean[-nrFilesN][-fileSizeMB][-resFileresultFileName][-

hadoop strong TestDFSIO hdfs benchmarking

hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性？

我是否需要将Spark与YARN结合使用才能通过HDFS实现NODELOCAL数据局部性？如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中，Spark如何知道数据位于本地节点上？最佳答案 YARN是一个资源管理器。它处理内存和进程，而不处理HDFS或数据局部性的工作。既然Spark可以从HDFS源中读取，并且名称节点和数据节点负责YARN之外的所有HDFSblock数据管理，那么我认为答案是否定的，您不需要YARN。但是您已经拥有HDFS，这意味着您拥有Hadoop，那么为什么不利用将Spark集成到YARN中呢

hadoop Spark section HDFS apache-spark

hadoop - HDFS - 最后一个预期列之后的额外数据

我们有源系统和目标系统。尝试使用talend工具将数据从SQLserver2012导入到PivotalHadoop(PHD3.0)版本。获取错误:ERROR:extradataafterlastexpectedcolumn(seg0slice1datanode.domain.com:40000pid=15035)Detail:Externaltablepick_report_stg0,line5472ofpxf://masternnode/path/to/hdfs?profile=HdfsTextSimple:"5472;2016-11-2808:39:54.217;;2016-11-

hadoop HDFS 34 character strong greenplum external-tables hawq

hadoop - Hadoop 中 HDFS 写入的名称节点如何更新数据节点的可用性

我有10个数据节点，复制因子为3，文件大小为150，block大小为64。因此文件将被拆分为三个blockB1、B2、B3。因此，客户端向名称节点询问数据节点是否可用以写入B1block。我的问题是名称节点将向客户端提供多少数据节点用于写入B1block。还有一个问题是B1、B2、B3的写入将如何并行或顺序发生最佳答案数据将由客户端仅写入一个数据节点，其余复制由数据节点本身根据名称节点指令处理。Replicaplacement:当一个datanode从客户端接收block的数据时，datanode将数据保存在一个代表block的

hadoop section block datanode hadoop2 hadoop-streaming

hadoop - 从 HDFS 读取并写入 HBASE

Mapper正在从两个地方读取文件1)用户访问过的文章(按国家排序)2)国家统计(countrywise)两个Mapper的输出都是Text，Text我正在运行AmazonCluster的程序我的目标是从两个不同的集合中读取数据并将结果合并并存储在hbase中。HDFS到HDFS正在运行。代码卡在减少67%处并给出错误17/02/2410:45:31INFOmapreduce.Job:map0%reduce0%17/02/2410:45:37INFOmapreduce.Job:map100%reduce0%17/02/2410:45:49INFOmapreduce.Job:map100

hadoop HBASE apache import elastic-map-reduce

121 122 123124125 126 127