hadoop - 大量小文件Hadoop

coder 2024-01-08 原文

一些机器的参数是通过网络服务测量并上传到 HDFS 的。每次测量的参数值都保存在一个文件中，其中一次测量平均有 1000 个值。

问题是 - 有大量文件。只有一定数量的文件用于 MapReduce 作业(例如，上个月的测量值)。因此我无法将它们全部合并到一个大的序列文件中，因为不同的时间需要不同的文件。

我知道拥有大量小文件是不好的，因为 NameNode 包含 HDFS 上所有这些文件的路径(并将其保存在内存中)，另一方面，每个小文件都会产生一个 Mapper创作。

如何避免这个问题？

最佳答案

迟到的答案:您可以使用 SeaweedFS https://github.com/chrislusf/seaweedfs (我正在研究这个)。对大量小文件有特殊优化。

HDFS其实对将文件存储委托(delegate)给其他文件系统有很好的支持。只需添加一个 SeaweedFS hadoop jar。参见 https://github.com/chrislusf/seaweedfs/wiki/Hadoop-Compatible-File-System

关于hadoop - 大量小文件Hadoop，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29825834/

有关hadoop - 大量小文件Hadoop的更多相关文章

hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - 如何(大量)减少 Rails 应用程序中的 SQL 查询数量？ - 2
在我的Rails应用程序中，我有users，它可以有许多invoices，而invoices又可以有许多payments。现在在dashboardView中，我想总结一个user曾经收到的所有payments，按年、季度或月。付款也分割为毛额、Netty和税额。user.rb:classUser:items).allpayments_with_invoice.select{|x|range.cover?x.date}.sum(&:"#{kind}_amount")endend发票.rb:classInvoicepayment.rb:classPaymentdashboards_cont
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
ruby-on-rails - 你如何说服你的经理你的项目需要大量重构？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我作为承包商加入了一个Rails项目。该项目已经进行了一年多。代码由大约10名不同的开发人员编写，其中大多数也是承包商。他们有不同的代码风格。其中一些来自Java。该代码在metric_fu方面得分很低。许多函数非常长(100-300行)。有些函数有大量的逻辑分支、循环和递归。每个请求都会生成大量的sql查询。性能很差。许多过时的代码从未使用过但从未有机会被清理。核心架构明显错误或设计过度
Ubuntu下Hadoop的单机安装 - 2
云计算实验中要求我们在Linux系统安装Hadoop，故来做一个简单的记录。· 注：我的操作系统环境是Ubuntu-20.04.3，安装的JDK版本为jdk1.8.0_301，安装的Hadoop版本为hadoop2.7.1。（不确定其他版本是否会出现版本兼容问题）Hadoop安装步骤如下：一、更新apt和安装vim编辑器二、配置本机无密码登录SSH 三、安装JAVA环境四、下载安装Hadoop 五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim
arrays - 查看另一个字符串中是否包含大量字符串的更快方法 - 2
我有一个存储在数组中的大约30万个常用词的列表。因此，数组的1个元素=1个单词。另一方面，我有一个巨大的字符串列表，其中可能包含这30万个单词中的一个或多个。示例字符串为:ifdxawesome453。现在，我需要根据常用词检查这些长字符串中的每一个。如果在该字符串中找到一个单词，则立即返回。因此，我需要再次检查这30万个单词ifdxawesome453并查看其中是否包含任何单词。所以我做的是:huge_list_of_words.any?do|word|random_long_word.include?(word)end虽然这对于随机长单词的小样本来说没问题，但如果我有数百万个单词，
ruby - 快速处理大量 CSV 数据的最佳方式 - 2
我有大型CSV数据集(超过1000万行)需要处理。我有两个其他文件需要引用输出-它们包含的数据放大了我们对CSV文件中数百万行的了解。目标是输出一个新的CSV文件，其中每条记录都与来自其他文件的附加信息合并。假设大型CSV文件有交易，但客户信息和账单信息记录在另外两个文件中，我们想要输出一个新的CSV，其中每笔交易都链接到客户ID和账户ID等。一位同事有一个用Java编写的功能程序来执行此操作，但速度很慢。原因是数百万行的CSV文件显然要遍历很多很多次。我的问题是——是的，我已经开始了——我应该如何在Ruby中处理这个问题？目标是让它更快(现在18小时以上，CPU事件很少)我可以将这么
MAC系统安装Hadoop - 2
一、设置免密登录1、系统偏好设置-----共享----勾选远程登录，所有用户2、打开终端，输入命令ssh-keygen-trsa，一直回车即可2.查看生成的公钥和私钥 cd~/.ssh ls会看到~/.ssh目录下有两个文件：①私钥：id_rsa②公钥：id_rsa.pub3.将公钥内容写入到~/.ssh/authorized_keys中 cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys4.测试在terminal终端输入 sshlocalhost如果出现以下询问输入yes，不需要输入密码就能登录，说明配置成功Areyousureyouw
sql - 从 Rails 4 应用程序调用大量 SQL - 2
我有一个Rails4应用程序，我将它与sidekiq结合使用来运行异步作业。我通常在Rails应用程序之外运行的作业之一是大量复杂的SQL查询，这些查询实际上无法通过ActiveRecord建模。这组SQL查询与我的Rails应用程序的联系是它应该在我的Controller操作之一被调用时执行。理想情况下，我会在Controller中将我的Rails应用程序的作业排队，以便Sidekiq继续运行查询。现在它们存储在一个外部文件中，我不完全确定让Rails运行上述SQL的最佳方法是什么。感谢任何解决方案。最佳答案我同意Sharag
ruby - Emacs ruby 模式，在括号内大量缩进？ - 2
请原谅我的emacs新手，但有人知道如何解决这个问题吗？在emacs中编码时，在ruby模式下，它会在所有关键字之后缩进到正确的级别(即2个空格)，如def、class、module、begin等，但是当跨多行打破参数列表时，它会缩进到一个看似随机的位置，比如超过40列左右。我一直在阅读emacs选项卡设置，似乎只是在兜圈子，没有获得我正在寻找的信息，所以我想我应该在这里问。这是将光标放置在参数列表中的屏幕截图。我试过在大括号内缩进(例如，对于一个block或一个散列)并且它工作正常，是括号把它弄乱了。最佳答案 http://

hadoop - 大量小文件Hadoop

有关hadoop - 大量小文件Hadoop的更多相关文章

随机推荐