hdfs

hadoop wordcount并将文件上传到hdfs

大家好，我是hadoop的新手，我以伪模式安装hadoop。配置文件在这里核心站点.xmlfs.default.namehdfs://localhost:9000hdfs-site.xmldfs.replication1dfs.name.dirfile:///home/hadoop_usr/hadoopinfra/hdfs/namenodedfs.data.dirfile:///home/hadoop_usr/hadoopinfra/hdfs/datanode并且成功启动datanode和namenodeNowiwanttoputmyfileintohdfsbyusingfollowi

并将传到 gt lt strong hadoop

hadoop - 如何通过保留修改时间将 HDFS 文件从一个集群复制到另一个集群

我必须将一些HDFS文件从我的生产集群移动到开发集群。在根据文件修改时间移动到开发集群后，我必须测试对HDFS文件的一些操作。需要具有不同日期的文件才能在开发中对其进行测试。我试着用DISTCP做，修改时间正在更新当前时间。我使用在这里找到的许多参数检查了Distcpdistcpversion2guide有没有其他方法可以在不改变修改时间的情况下获取文件？或者我可以在将文件放入hdfs后手动更改修改时间吗？提前致谢最佳答案在hadoopdistcp命令中使用-pt标志。这将p保留distcp文件的timestamp(修改时间)。

hadoop HDFS section code distcp bigdata

hadoop - 当实际的事件名称节点关闭时，HDFS HA 集群备用节点不会变为事件节点

我已经在HA模式下配置了HDFS。我有一个“事件”节点和一个“备用”节点。我已经开始了ZKFC。如果我停止事件节点的zkfc，备用节点将更改状态并设置为“事件”节点。问题是当我关闭启动了zkfc的事件服务器以及一台“事件”服务器和一台“备用”服务器时，备用服务器不会更改其状态，始终保持备用状态。我的核心站点.xmlfs.default.namehdfs://auto-ha我的hdfs-site.xmldfs.namenode.rpc-bind-host0.0.0.0TheactualaddresstheRPCserverwillbindto.Ifthisoptionaladdressi

hadoop HDFS lt gt property apache-zookeeper

hadoop - 无法联系配置单元表分区，删除与分区相关的 hdfs 文件后

我的Hadoop集群在11:00对每个数据进行批处理。作业创建hive表分区(ex.p_date=201702,p_domain=0)并像ETL一样将rdbms数据导入到hive表分区....(hive表不是外部表)但是作业失败了，我删除了一些hdfs文件(分区位置=>p_date=20170228,p_domain=0)重新处理。这是我的错误，我只是在直线上键入查询删除分区...当我以这种方式查询“select*fromtable_namewherep_date=20170228,p_domain=0”时遇到挂起，但是“select*fromtable_namewherep_date

配置单 hadoop section p_domain PART_ID hive hiveql apache-hive

linux - HDFS文件权限问题

我在HDFS中创建了一个具有访问权限(400)的目录/tmp/ran-test。我试图将文件复制到目录，但出现权限被拒绝的错误。但是，我的同事可以毫无错误地将文件复制到目录中。我现在想知道它是如何工作的。如果有人给出他们的解释，我将不胜感激。谢谢，嘻嘻最佳答案有问题的目录设置了HDFSACL权限。请注意hdfsdfs-ls输出的权限字符串中的+字符。dr--------+-jkris03hdfs02017-03-2015:36/tmp/ranger_test这个+确定目录有一个ACL(访问控制列表)，这为用户提供了额外的写入权限

linux HDFS code section stackoverflow hadoop

hadoop - HDFS 中 Hive 代理用户的最佳解决方案是什么？

我对HDFS和Hive中的代理用户设置感到非常困惑。我在hive-site.xml中启用了doAs选项hive.server2.enable.doAstrue和core-site.xml中的代理用户hadoop.proxyuser.hdfs.hosts*hadoop.proxyuser.hdfs.groups*但这会导致:2017-03-2916:24:59,022INFOorg.apache.hadoop.ipc.Server:Connectionfrom172.16.0.239:60920forprotocolorg.apache.hadoop.hdfs.protocol.Clie

hadoop HDFS code gt lt permissions hive hadoop-yarn

java - 在 Java 中尝试从 HDFS 复制 FromLocalFile 时出现 “Wrong FS… expected: file:///”

我正在尝试将abc.json从port/example_File/2017复制到HDFS中的另一个位置/port/example_File/2018，通过下面的代码StringexampleFile="hdfs://port/example_File/2017/abc.json"StringtargetFile="hdfs://port/example_File/2018"hdfs.copyFromLocalFile(newPath(exampleFile),newPath(targetFile))我正在低于异常org.jboss.resteasy.spi.UnhandledExcep

时出 FromLocalFile hadoop code apache java hdfs hadoop2

Hadoop HDFS 数据文件 : Displaying Datanodes & Blocks

我已经将一个文件放入HDFS，我想确切地知道它是如何分散在DFS中的(哪些数据block在哪些数据节点中)。尝试了fsck，但当我指定我放入DFS中的数据文件的名称时，出现“无效路径”错误。有什么想法吗？最佳答案尝试hdfsfsck/path/to/file-files-blocks-locations这将打印出文件每个block的位置。NamenodeWebUI也会提供这些信息。在Utilities-->Browsethefilesystem下，选择要查看block信息的文件。关

Displaying Datanodes section code stackoverflow hadoop hdfs bigdata

hadoop - 将数据上传/插入到 HDFS 时是否涉及映射器 reducer ？

我在这里有一个很大的困惑。当我们将数据上传/插入/放入HADOOPHDFS时，我们知道数据是根据block大小存储在block中的和复制因子。此外，Mapreduce仅在处理数据时起作用。当我在我的一个表中插入任何数据时，我正在使用MRV2，我可以看到有MAPREDUCE进度条。那么这里的确切图片是什么。实际上，插入时涉及映射器和缩减器/正在将数据上传到HDFS？最佳答案是否需要MapReduce取决于写入操作的类型。hdfsdfs-put或-copyFromLocal等操作在将数据从LocalFS写入HDFS时不使用MapRe

射器 reducer code section hadoop hive mapreduce bigdata

mysql - 在 hdfs 中进行选择的最佳方法？

我有一个包含1个主节点和4个节点的hadoop环境，我在其中使用sqoop保存mysql应用程序的所有数据我需要通过应用程序的Web访问保存在hadoop中的这些数据，换句话说:如果用户记录的日期早于6个月，我希望应用程序在hadoop数据中进行选择。都是关系型数据，mysql。我不需要做任何大的分析。这可行吗？最好的方法是什么？你使用什么工具？在这种情况下发送hdfs中的数据不可行吗？提前致谢最佳答案据我了解您的问题，您正在使用sqoop将数据从MySQL导入HDFS。现在您想对HDFS中的这些数据执行一些查询。您可以使用Hi

中进 mysql section sqoop hadoop hdfs relational-database

202 203 204205206 207 208