草庐IT

hadoop wordcount并将文件上传到hdfs

大家好,我是hadoop的新手,我以伪模式安装hadoop。配置文件在这里核心站点.xmlfs.default.namehdfs://localhost:9000hdfs-site.xmldfs.replication1dfs.name.dirfile:///home/hadoop_usr/hadoopinfra/hdfs/namenodedfs.data.dirfile:///home/hadoop_usr/hadoopinfra/hdfs/datanode并且成功启动datanode和namenodeNowiwanttoputmyfileintohdfsbyusingfollowi

hadoop - 如何通过保留修改时间将 HDFS 文件从一个集群复制到另一个集群

我必须将一些HDFS文件从我的生产集群移动到开发集群。在根据文件修改时间移动到开发集群后,我必须测试对HDFS文件的一些操作。需要具有不同日期的文件才能在开发中对其进行测试。我试着用DISTCP做,修改时间正在更新当前时间。我使用在这里找到的许多参数检查了Distcpdistcpversion2guide有没有其他方法可以在不改变修改时间的情况下获取文件?或者我可以在将文件放入hdfs后手动更改修改时间吗?提前致谢 最佳答案 在hadoopdistcp命令中使用-pt标志。这将p保留distcp文件的timestamp(修改时间)。

hadoop - 当实际的事件名称节点关闭时,HDFS HA 集群备用节点不会变为事件节点

我已经在HA模式下配置了HDFS。我有一个“事件”节点和一个“备用”节点。我已经开始了ZKFC。如果我停止事件节点的zkfc,备用节点将更改状态并设置为“事件”节点。问题是当我关闭启动了zkfc的事件服务器以及一台“事件”服务器和一台“备用”服务器时,备用服务器不会更改其状态,始终保持备用状态。我的核心站点.xmlfs.default.namehdfs://auto-ha我的hdfs-site.xmldfs.namenode.rpc-bind-host0.0.0.0TheactualaddresstheRPCserverwillbindto.Ifthisoptionaladdressi

hadoop - 无法联系配置单元表分区,删除与分区相关的 hdfs 文件后

我的Hadoop集群在11:00对每个数据进行批处理。作业创建hive表分区(ex.p_date=201702,p_domain=0)并像ETL一样将rdbms数据导入到hive表分区....(hive表不是外部表)但是作业失败了,我删除了一些hdfs文件(分区位置=>p_date=20170228,p_domain=0)重新处理。这是我的错误,我只是在直线上键入查询删除分区...当我以这种方式查询“select*fromtable_namewherep_date=20170228,p_domain=0”时遇到挂起,但是“select*fromtable_namewherep_date

linux - HDFS文件权限问题

我在HDFS中创建了一个具有访问权限(400)的目录/tmp/ran-test。我试图将文件复制到目录,但出现权限被拒绝的错误。但是,我的同事可以毫无错误地将文件复制到目录中。我现在想知道它是如何工作的。如果有人给出他们的解释,我将不胜感激。谢谢,嘻嘻 最佳答案 有问题的目录设置了HDFSACL权限。请注意hdfsdfs-ls输出的权限字符串中的+字符。dr--------+-jkris03hdfs02017-03-2015:36/tmp/ranger_test这个+确定目录有一个ACL(访问控制列表),这为用户提供了额外的写入权限

hadoop - HDFS 中 Hive 代理用户的最佳解决方案是什么?

我对HDFS和Hive中的代理用户设置感到非常困惑。我在hive-site.xml中启用了doAs选项hive.server2.enable.doAstrue和core-site.xml中的代理用户hadoop.proxyuser.hdfs.hosts*hadoop.proxyuser.hdfs.groups*但这会导致:2017-03-2916:24:59,022INFOorg.apache.hadoop.ipc.Server:Connectionfrom172.16.0.239:60920forprotocolorg.apache.hadoop.hdfs.protocol.Clie

java - 在 Java 中尝试从 HDFS 复制 FromLocalFile 时出现 “Wrong FS… expected: file:///”

我正在尝试将abc.json从port/example_File/2017复制到HDFS中的另一个位置/port/example_File/2018,通过下面的代码StringexampleFile="hdfs://port/example_File/2017/abc.json"StringtargetFile="hdfs://port/example_File/2018"hdfs.copyFromLocalFile(newPath(exampleFile),newPath(targetFile))我正在低于异常org.jboss.resteasy.spi.UnhandledExcep

Hadoop HDFS 数据文件 : Displaying Datanodes & Blocks

我已经将一个文件放入HDFS,我想确切地知道它是如何分散在DFS中的(哪些数据block在哪些数据节点中)。尝试了fsck,但当我指定我放入DFS中的数据文件的名称时,出现“无效路径”错误。有什么想法吗? 最佳答案 尝试hdfsfsck/path/to/file-files-blocks-locations这将打印出文件每个block的位置。NamenodeWebUI也会提供这些信息。在Utilities-->Browsethefilesystem下,选择要查看block信息的文件。 关

hadoop - 将数据上传/插入到 HDFS 时是否涉及映射器 reducer ?

我在这里有一个很大的困惑。当我们将数据上传/插入/放入HADOOPHDFS时,我们知道数据是根据block大小存储在block中的和复制因子。此外,Mapreduce仅在处理数据时起作用。当我在我的一个表中插入任何数据时,我正在使用MRV2,我可以看到有MAPREDUCE进度条。那么这里的确切图片是什么。实际上,插入时涉及映射器和缩减器/正在将数据上传到HDFS? 最佳答案 是否需要MapReduce取决于写入操作的类型。hdfsdfs-put或-copyFromLocal等操作在将数据从LocalFS写入HDFS时不使用MapRe

mysql - 在 hdfs 中进行选择的最佳方法?

我有一个包含1个主节点和4个节点的hadoop环境,我在其中使用sqoop保存mysql应用程序的所有数据我需要通过应用程序的Web访问保存在hadoop中的这些数据,换句话说:如果用户记录的日期早于6个月,我希望应用程序在hadoop数据中进行选择。都是关系型数据,mysql。我不需要做任何大的分析。这可行吗?最好的方法是什么?你使用什么工具?在这种情况下发送hdfs中的数据不可行吗?提前致谢 最佳答案 据我了解您的问题,您正在使用sqoop将数据从MySQL导入HDFS。现在您想对HDFS中的这些数据执行一些查询。您可以使用Hi