草庐IT

c++ - 存储霍夫曼树的有效方法

coder 2023-05-02 原文

我正在编写一个霍夫曼编码/解码工具,并正在寻找一种有效的方法来存储为存储在输出文件内部而创建的霍夫曼树。

目前我正在实现两个不同的版本。

  1. 这一步将整个文件逐个字符读入内存,并为整个文档建立一个频率表。这只需要输出一次树,因此效率不是什么大问题,除非输入文件很小。
  2. 我使用的另一种方法是读取一 block 大小约为 64 KB 的数据,然后对其进行频率分析,创建一棵树并对其进行编码。但是,在这种情况下,在每个 block 之前,我需要输出我的频率树,以便解码器能够重新构建其树并正确解码编码文件。这就是效率发挥作用的地方,因为我想尽可能多地节省空间。

到目前为止,在我的搜索中,我还没有找到一种将树存储在尽可能小的空间中的好方法,我希望 StackOverflow 社区可以帮助我找到一个好的解决方案!

最佳答案

由于您已经必须实现代码以在按字节组织的流/文件之上处理逐位层,因此这是我的建议。

不要存储实际频率,解码不需要它们。但是,您确实需要实际的树。

所以对于每个节点,从根开始:

  1. 如果叶节点:输出 1 位 + N 位字符/字节
  2. 如果不是叶节点,则输出 0 位。然后以相同的方式对两个子节点(先左后右)进行编码

要阅读,请执行以下操作:

  1. 读取位。如果为 1,则读取 N 位字符/字节,返回没有子节点的新节点
  2. 如果位为 0,则以相同的方式解码左右子节点,并返回带有这些子节点的新节点,但没有值

叶节点基本上是任何没有子节点的节点。

使用这种方法,您可以在编写输出之前计算输出的确切大小,以确定 yield 是否足以证明努力的合理性。这假设您有一个键/值对字典,其中包含每个字符的频率,其中频率是实际出现的次数。

计算伪代码:

Tree-size = 10 * NUMBER_OF_CHARACTERS - 1
Encoded-size = Sum(for each char,freq in table: freq * len(PATH(char)))

树大小的计算考虑了叶子节点和非叶子节点,并且内联节点比字符少一个。

SIZE_OF_ONE_CHARACTER 将是位数,这两个将为您提供我对树的方法 + 编码数据将占用的总位数。

PATH(c) 是一个函数/表,它将产生从根到树中该字符的位路径。

这是一个看起来像 C# 的伪代码,它假设一个字符只是一个简单的字节。

void EncodeNode(Node node, BitWriter writer)
{
    if (node.IsLeafNode)
    {
        writer.WriteBit(1);
        writer.WriteByte(node.Value);
    }
    else
    {
        writer.WriteBit(0);
        EncodeNode(node.LeftChild, writer);
        EncodeNode(node.Right, writer);
    }
}

再读一遍:

Node ReadNode(BitReader reader)
{
    if (reader.ReadBit() == 1)
    {
        return new Node(reader.ReadByte(), null, null);
    }
    else
    {
        Node leftChild = ReadNode(reader);
        Node rightChild = ReadNode(reader);
        return new Node(0, leftChild, rightChild);
    }
}

一个例子(简化,使用属性等)节点实现:

public class Node
{
    public Byte Value;
    public Node LeftChild;
    public Node RightChild;

    public Node(Byte value, Node leftChild, Node rightChild)
    {
        Value = value;
        LeftChild = leftChild;
        RightChild = rightChild;
    }

    public Boolean IsLeafNode
    {
        get
        {
            return LeftChild == null;
        }
    }
}

这是来自特定示例的示例输出。

输入:AAAAAAABCCCCCCDDEEEEE

频率:

  • 答:6
  • B:1
  • C:6
  • D:2
  • E:5

每个字符只有 8 位,因此树的大小将是 10 * 5 - 1 = 49 位。

树可能如下所示:

      20
  ----------
  |        8
  |     -------
 12     |     3
-----   |   -----
A   C   E   B   D
6   6   5   1   2

所以每个字符的路径如下(0为左,1为右):

  • 答:00
  • 乙:110
  • C: 01
  • 电话:111
  • E:10

所以要计算输出大小:

  • A:6 次出现 * 2 位 = 12 位
  • B:1 次出现 * 3 位 = 3 位
  • C:6 次出现 * 2 位 = 12 位
  • D:2 次出现 * 3 位 = 6 位
  • E:5 次出现 * 2 位 = 10 位

编码字节总和为 12+3+12+6+10 = 43 位

将其添加到树中的 49 位,输出将是 92 位,或 12 个字节。与存储原始 20 个未编码字符所需的 20 * 8 个字节相比,您将节省 8 个字节。

最终输出,包括开始的树,如下所示。流 (A-E) 中的每个字符都被编码为 8 位,而 0 和 1 只是一个位。流中的空间只是将树与编码数据分开,在最终输出中不占用任何空间。

001A1C01E01B1D 0000000000001100101010101011111111010101010

对于您在评论中的具体示例 AABCDEF,您将得到:

输入:AABCDEF

频率:

  • 答:2
  • B:1
  • C:1
  • D:1
  • E:1
  • F: 1

树:

        7
  -------------
  |           4
  |       ---------
  3       2       2
-----   -----   -----
A   B   C   D   E   F
2   1   1   1   1   1

路径:

  • 答:00
  • 乙:01
  • C:100
  • D:101
  • 电子:110
  • F: 111

树:001A1B001C1D01E1F = 59 位
数据:000001100101110111 = 18位
总和:59 + 18 = 77 位 = 10 个字节

由于原来是 8 位的 7 个字符 = 56,所以对于这么小的数据,你会有太多的开销。

关于c++ - 存储霍夫曼树的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/759707/

有关c++ - 存储霍夫曼树的有效方法的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  4. ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2

    我正在尝试设置一个puppet节点,但ruby​​gems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由ruby​​gems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby

  5. Ruby 方法() 方法 - 2

    我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索,但这不是我需要的。我也看过ruby​​-doc.org,但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗?更新我用methods()方法做了实验,得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco

  6. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  7. ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2

    我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer

  8. ruby - Highline 询问方法不会使用同一行 - 2

    设置:狂欢ruby1.9.2高线(1.6.13)描述:我已经相当习惯在其他一些项目中使用highline,但已经有几个月没有使用它了。现在,在Ruby1.9.2上全新安装时,它似乎不允许在同一行回答提示。所以以前我会看到类似的东西:require"highline/import"ask"Whatisyourfavoritecolor?"并得到:Whatisyourfavoritecolor?|现在我看到类似的东西:Whatisyourfavoritecolor?|竖线(|)符号是我的终端光标。知道为什么会发生这种变化吗? 最佳答案

  9. ruby-on-rails - 如何优雅地重启 thin + nginx? - 2

    我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server

  10. ruby - 主要 :Object when running build from sublime 的未定义方法 `require_relative' - 2

    我已经从我的命令行中获得了一切,所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时,我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗?我正在使用OSX并安装了rvm。 最佳答案 或者,您可以只使用“require”,它应该可以正常工作。我认为“require_relative”仅适用于ruby​​1.9+ 关于ruby-主要:Objectwhenrun

随机推荐