草庐IT

hadoop - 大量小文件Hadoop

coder 2024-01-08 原文

一些机器的参数是通过网络服务测量并上传到 HDFS 的。每次测量的参数值都保存在一个文件中,其中一次测量平均有 1000 个值。

问题是 - 有大量文件。只有一定数量的文件用于 MapReduce 作业(例如,上个月的测量值)。因此我无法将它们全部合并到一个大的序列文件中,因为不同的时间需要不同的文件。

我知道拥有大量小文件是不好的,因为 NameNode 包含 HDFS 上所有这些文件的路径(并将其保存在内存中),另一方面,每个小文件都会产生一个 Mapper创作。

如何避免这个问题?

最佳答案

迟到的答案:您可以使用 SeaweedFS https://github.com/chrislusf/seaweedfs (我正在研究这个)。对大量小文件有特殊优化。

HDFS其实对将文件存储委托(delegate)给其他文件系统有很好的支持。只需添加一个 SeaweedFS hadoop jar。参见 https://github.com/chrislusf/seaweedfs/wiki/Hadoop-Compatible-File-System

关于hadoop - 大量小文件Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29825834/

有关hadoop - 大量小文件Hadoop的更多相关文章

  1. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  2. ruby-on-rails - 如何(大量)减少 Rails 应用程序中的 SQL 查询数量? - 2

    在我的Rails应用程序中,我有users,它可以有许多invoices,而invoices又可以有许多payments。现在在dashboardView中,我想总结一个user曾经收到的所有payments,按年、季度或月。付款也分割为毛额、Netty和税额。user.rb:classUser:items).allpayments_with_invoice.select{|x|range.cover?x.date}.sum(&:"#{kind}_amount")endend发票.rb:classInvoicepayment.rb:classPaymentdashboards_cont

  3. 大数据之Hadoop数据仓库Hive - 2

    目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和

  4. ruby-on-rails - 你如何说服你的经理你的项目需要大量重构? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我作为承包商加入了一个Rails项目。该项目已经进行了一年多。代码由大约10名不同的开发人员编写,其中大多数也是承包商。他们有不同的代码风格。其中一些来自Java。该代码在metric_fu方面得分很低。许多函数非常长(100-300行)。有些函数有大量的逻辑分支、循环和递归。每个请求都会生成大量的sql查询。性能很差。许多过时的代码从未使用过但从未有机会被清理。核心架构明显错误或设计过度

  5. Ubuntu下Hadoop的单机安装 - 2

            云计算实验中要求我们在Linux系统安装Hadoop,故来做一个简单的记录。· 注:我的操作系统环境是Ubuntu-20.04.3,安装的JDK版本为jdk1.8.0_301,安装的Hadoop版本为hadoop2.7.1。(不确定其他版本是否会出现版本兼容问题)Hadoop安装步骤如下:        一、更新apt和安装vim编辑器        二、配置本机无密码登录SSH        三、安装JAVA环境        四、下载安装Hadoop        五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim

  6. arrays - 查看另一个字符串中是否包含大量字符串的更快方法 - 2

    我有一个存储在数组中的大约30万个常用词的列表。因此,数组的1个元素=1个单词。另一方面,我有一个巨大的字符串列表,其中可能包含这30万个单词中的一个或多个。示例字符串为:ifdxawesome453。现在,我需要根据常用词检查这些长字符串中的每一个。如果在该字符串中找到一个单词,则立即返回。因此,我需要再次检查这30万个单词ifdxawesome453并查看其中是否包含任何单词。所以我做的是:huge_list_of_words.any?do|word|random_long_word.include?(word)end虽然这对于随机长单词的小样本来说没问题,但如果我有数百万个单词,

  7. ruby - 快速处理大量 CSV 数据的最佳方式 - 2

    我有大型CSV数据集(超过1000万行)需要处理。我有两个其他文件需要引用输出-它们包含的数据放大了我们对CSV文件中数百万行的了解。目标是输出一个新的CSV文件,其中每条记录都与来自其他文件的附加信息合并。假设大型CSV文件有交易,但客户信息和账单信息记录在另外两个文件中,我们想要输出一个新的CSV,其中每笔交易都链接到客户ID和账户ID等。一位同事有一个用Java编写的功能程序来执行此操作,但速度很慢。原因是数百万行的CSV文件显然要遍历很多很多次。我的问题是——是的,我已经开始了——我应该如何在Ruby中处理这个问题?目标是让它更快(现在18小时以上,CPU事件很少)我可以将这么

  8. MAC系统安装Hadoop - 2

    一、设置免密登录1、系统偏好设置-----共享----勾选远程登录,所有用户2、打开终端,输入命令ssh-keygen-trsa,一直回车即可2.查看生成的公钥和私钥    cd~/.ssh    ls会看到~/.ssh目录下有两个文件:①私钥:id_rsa②公钥:id_rsa.pub3.将公钥内容写入到~/.ssh/authorized_keys中    cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys4.测试在terminal终端输入 sshlocalhost如果出现以下询问输入yes,不需要输入密码就能登录,说明配置成功Areyousureyouw

  9. sql - 从 Rails 4 应用程序调用大量 SQL - 2

    我有一个Rails4应用程序,我将它与sidekiq结合使用来运行异步作业。我通常在Rails应用程序之外运行的作业之一是大量复杂的SQL查询,这些查询实际上无法通过ActiveRecord建模。这组SQL查询与我的Rails应用程序的联系是它应该在我的Controller操作之一被调用时执行。理想情况下,我会在Controller中将我的Rails应用程序的作业排队,以便Sidekiq继续运行查询。现在它们存储在一个外部文件中,我不完全确定让Rails运行上述SQL的最佳方法是什么。感谢任何解决方案。 最佳答案 我同意Sharag

  10. ruby - Emacs ruby​​ 模式,在括号内大量缩进? - 2

    请原谅我的emacs新手,但有人知道如何解决这个问题吗?在emacs中编码时,在ruby​​模式下,它会在所有关键字之后缩进到正确的级别(即2个空格),如def、class、module、begin等,但是当跨多行打破参数列表时,它会缩进到一个看似随机的位置,比如超过40列左右。我一直在阅读emacs选项卡设置,似乎只是在兜圈子,没有获得我正在寻找的信息,所以我想我应该在这里问。这是将光标放置在参数列表中的屏幕截图。我试过在大括号内缩进(例如,对于一个block或一个散列)并且它工作正常,是括号把它弄乱了。 最佳答案 http://

随机推荐