c++ - 实现 T9 文本预测

coder 2024-02-16 原文

我在内存中有一个 T9 字典(trie/hash_map)。字典包含词-评级对，因此当从字典中选取一个词时，它的评级递增，并且词-评级对在词列表中上升。

假设有一种方法可以从字典中挑选一个单词。该方法还执行一些单词评级例程。

在输入中，我有在电话上按下的一串数字(1-9，“*”来更改单词和“”)。

问题:

有没有算法可以快速解析字符串？
哪种数据结构比较好？

更新:

Full problem text (问题D)

Hash_map implementation

Trie implementation

最佳答案

我认为特别有效的一种选择是将 trie 树预处理为经过修改的结构，该结构专门针对基于击键的单词预测进行了优化。

直觉上，新结构是一个由可以在任何点按下的可能数字创建的 trie。然后每个特里树节点存储一个优先级队列，其中包含可能使用这些数字拼出的单词。然后，您可以通过以下算法预测要使用的词:

从 trie 的根开始。
对于每个数字，跟随与该数字对应的指针。
如果您退出 trie，则没有任何建议可以提出。
否则，查看可以由这些数字精确组成的单词的优先级队列，然后建议该优先级队列中使用次数最多的元素。

该算法耗时O(n + T_max)，其中n是数字串的长度，T_max是找到最流行的所需时间给定前缀的单词。对于二进制堆之类的东西，这可能是 O(1)，但对于更复杂的堆来说可能会更慢。

要构建此数据结构，您需要按如下方式预处理单词/频率的原始列表。对于每个单词，确定与其字母对应的数字系列。例如，单词“季风”将是 6667666，而单词“苹果”将是 27753。然后，将该序列插入数字特里，根据需要创建新节点。当到达这个数字串对应的最后一个节点时，将这个词插入到该节点对应的优先级队列中。这个操作的总时间实际上是相当不错的；给定一个包含 n 个字母的单词列表，这可以在 O(n T_insert) 时间内完成，其中 T_insert 是插入所需的时间一个词进入优先队列。这是因为我们最多需要访问每个字母三次 - 一次将其转换为数字，一次跟随数字 trie 中的适当边缘，一次将其插入优先级队列。

这种方法还可以很容易地将新词插入到预测器中。每当用户离开数字 trie 或选择一个不是第一个单词的单词时，您可以通过在 trie 中创建适当的一系列节点，然后将该单词插入正确的优先级来将该单词插入到数字 trie 中排队。

如果您将优先级队列从存储指向其最小元素的指针的平衡二叉搜索树中取出，您可以实现在 O(n) 时间内查找一系列 n 数字的最快单词，然后可以列出具有该前缀的所有其他单词均摊销 O(1) 时间。您还可以通过这种方式非常轻松地插入或删除新单词。

因为单词存储在一个 trie 中，您可以在 O(1) 中更新您对当前单词的猜测，只需从当前 trie 节点向下走到由当前数字给出的子节点。当用户按下空格键时，您只需重置回数字树的根。最后，当用户点击星标时，您可以使用上述技巧来查看给定 trie 节点的下一个最流行的词。

希望这对您有所帮助!

关于c++ - 实现 T9 文本预测，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7208822/

amp 43 单词 trie section c++data-structures string-parsing t9

有关c++ - 实现 T9 文本预测的更多相关文章

ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server
ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
ruby - 使用 `+=` 和 `send` 方法 - 2
如何将send与+=一起使用？a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案恐怕你不能。+=不是方法，而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
【Java入门】使用Java实现文件夹的遍历 - 2
遍历文件夹我们通常是使用递归进行操作，这种方式比较简单，也比较容易理解。本文为大家介绍另一种不使用递归的方式，由于没有使用递归，只用到了循环和集合，所以效率更高一些！一、使用递归遍历文件夹整体思路1、使用File封装初始目录，2、打印这个目录3、获取这个目录下所有的子文件和子目录的数组。4、遍历这个数组，取出每个File对象4-1、如果File是否是一个文件，打印4-2、否则就是一个目录，递归调用代码实现publicclassSearchFile{publicstaticvoidmain(String[]args){//初始目录Filedir=newFile("d:/Dev");Datebeg
ruby - Arrays Sets 和 SortedSets 在 Ruby 中是如何实现的 - 2
通常，数组被实现为内存块，集合被实现为HashMap，有序集合被实现为跳跃列表。在Ruby中也是如此吗？我正在尝试从性能和内存占用方面评估Ruby中不同容器的使用情况最佳答案数组是Ruby核心库的一部分。每个Ruby实现都有自己的数组实现。Ruby语言规范只规定了Ruby数组的行为，并没有规定任何特定的实现策略。它甚至没有指定任何会强制或至少建议特定实现策略的性能约束。然而，大多数Rubyist对数组的性能特征有一些期望，这会迫使不符合它们的实现变得默默无闻，因为实际上没有人会使用它:插入、前置或追加以及删除元素的最坏情况步骤复
ruby - 如何计算 Liquid 中的变量 +1 - 2
我对如何计算通过{%assignvar=0%}赋值的变量加一完全感到困惑。这应该是最简单的任务。到目前为止，这是我尝试过的:{%assignamount=0%}{%forvariantinproduct.variants%}{%assignamount=amount+1%}{%endfor%}Amount:{{amount}}结果总是0。也许我忽略了一些明显的东西。也许有更好的方法。我想要存档的只是获取运行的迭代次数。最佳答案因为{{incrementamount}}将输出您的变量值并且不会影响{%assign%}定义的变量，我

c++ - 实现 T9 文本预测

有关c++ - 实现 T9 文本预测的更多相关文章

随机推荐