输入法词库解析（七）微软用户自定义短语.dat

IME & Coding 2023-03-28 原文

详细代码：https://github.com/cxcn/dtool

前言

微软拼音和微软五笔通用的用户自定义短语 dat 格式。

解析

前 8 个字节标识文件格式 machxudp，微软五笔的 lex 格式是 imscwubi。

下面 8 个字节应该是版本号。

接下来每 4 字节一组，分别表示偏移表开始、词条开始、文件总长、词条数、导出的时间戳。

然后补 0 一直到偏移表开始。

偏移表记录了每个词条从词条开始的偏移量，每 4 个字节一组。

接下来就是词条本体部分：

#	占用字节数	描述
	4	`10 00 10 00` 标记
a	2	该词条总字节长 - 词占用的字节长
	1	在候选中的位置
	1	`0x06`或`0x13`，未知
	4	0
	4	从`2010-01-01`开始的时间戳
	a - 16	编码（utf-16le），00 标识结束
	词条总字节长 - a	词（utf-16le），00 标识结束

代码实现：

func (MsUDP) Parse(filename string) Table {
    data, _ := os.ReadFile(filename)
    r := bytes.NewReader(data)
    ret := make(Table, 0, r.Len()>>8)

    // 词库偏移量
    r.Seek(0x10, 0)
    offset_start := ReadUint32(r) // 偏移表开始
    entry_start := ReadUint32(r)  // 词条开始
    entry_end := ReadUint32(r)    // 词条结束
    entry_count := ReadUint32(r)  // 词条数
    export_time := ReadUint32(r)  // 导出的时间
    t := time.Unix(int64(export_time), 0)
    fmt.Println(t, entry_end)

    // 第一个偏移量
    offset := 0
    for i := 0; i < entry_count; i++ {
        var next, length int
        if i == entry_count-1 {
            length = entry_end - entry_start - offset
        } else {
            r.Seek(int64(offset_start+4*(i+1)), 0)
            next = ReadUint32(r)
            length = next - offset
        }
        // fmt.Println(offset, next, length)

        r.Seek(int64(offset+entry_start), 0)
        offset = next
        ReadUint32(r)            // 0x10001000
        codeLen := ReadUint16(r) // 编码字节长+0x12
        order, _ := r.ReadByte() // 顺序
        _, _ = r.ReadByte()      // 0x06 不明
        ReadUint32(r)            // 4 个空字节
        ReadUint32(r)            // 时间戳
        tmp := make([]byte, codeLen-0x12)
        r.Read(tmp)
        code, _ := util.Decode(tmp, "UTF-16LE")
        ReadUint16(r) // 两个空字节
        tmp = make([]byte, length-codeLen-2)
        r.Read(tmp)
        word, _ := util.Decode(tmp, "UTF-16LE")
        fmt.Println(code, word)
        ret = append(ret, Entry{word, code, order})
    }
    return ret
}

生成

只需注意文件总长先用空字节代替，最后才写入。

代码实现：

func (MsUDP) Gen(table Table) []byte {
    var buf bytes.Buffer
    stamp := util.GetUint32(int(time.Now().Unix()))
    buf.Write([]byte{0x6D, 0x73, 0x63, 0x68, 0x78, 0x75, 0x64, 0x70,
        0x02, 0x00, 0x60, 0x00, 0x01, 0x00, 0x00, 0x00})
    buf.Write(util.GetUint32(0x40))
    buf.Write(util.GetUint32(0x40 + 4*len(table)))
    buf.Write(make([]byte, 4)) // 待定 文件总长
    buf.Write(util.GetUint32(len(table)))
    buf.Write(stamp)
    buf.Write(make([]byte, 28))
    buf.Write(make([]byte, 4))

    words := make([][]byte, 0, len(table))
    codes := make([][]byte, 0, len(table))
    sum := 0
    for i := range table {
        word, _ := util.Encode([]byte(table[i].Word), "UTF-16LE")
        code, _ := util.Encode([]byte(table[i].Code), "UTF-16LE")
        words = append(words, word)
        codes = append(codes, code)
        if i != len(table)-1 {
            sum += len(word) + len(code) + 20
            buf.Write(util.GetUint32(sum))
        }
    }
    for i := range table {
        buf.Write([]byte{0x10, 0x00, 0x10, 0x00})
        // fmt.Println(words[i], len(words[i]), codes[i], len(codes[i]))
        buf.Write(util.GetUint16(len(codes[i]) + 18))
        buf.WriteByte(table[i].Order)
        buf.WriteByte(0x06)
        buf.Write(make([]byte, 4))
        buf.Write(stamp)
        buf.Write(codes[i])
        buf.Write([]byte{0, 0})
        buf.Write(words[i])
        buf.Write([]byte{0, 0})
    }
    b := buf.Bytes()
    copy(b[0x18:0x1c], util.GetUint32(len(b)))
    return b
}

自定词库 text-align align style 程序人生

有关输入法词库解析（七）微软用户自定义短语.dat的更多相关文章

Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2
我正在尝试设置一个puppet节点，但rubygems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter，它工作正常，但如果我通过由rubygems(/usr/bin/facter)安装的二进制文件，它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 用逗号、双引号和编码解析 csv - 2
我正在使用ruby1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby - 主要 :Object when running build from sublime 的未定义方法 `require_relative' - 2
我已经从我的命令行中获得了一切，所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时，我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗？我正在使用OSX并安装了rvm。最佳答案或者，您可以只使用“require”，它应该可以正常工作。我认为“require_relative”仅适用于ruby1.9+ 关于ruby-主要:Objectwhenrun
ruby - 在 Ruby 中有条件地定义函数 - 2
我有一些代码在几个不同的位置之一运行:作为具有调试输出的命令行工具，作为不接受任何输出的更大程序的一部分，以及在Rails环境中。有时我需要根据代码的位置对代码进行细微的更改，我意识到以下样式似乎可行:print"Testingnestedfunctionsdefined\n"CLI=trueifCLIdeftest_printprint"CommandLineVersion\n"endelsedeftest_printprint"ReleaseVersion\n"endendtest_print()这导致:TestingnestedfunctionsdefinedCommandLin
ruby - 定义方法参数的条件 - 2
我有一个只接受一个参数的方法:defmy_method(number)end如果使用number调用方法，我该如何引发错误？？通常，我如何定义方法参数的条件？比如我想在调用的时候报错:my_method(1) 最佳答案您可以添加guard在函数的开头，如果参数无效则引发异常。例如:defmy_method(number)failArgumentError,"Inputshouldbegreaterthanorequalto2"ifnumbereputse.messageend#=>Inputshouldbegreaterthano
ruby - 如何在 Grape 中定义哈希数组？ - 2
我使用Ember作为我的前端和GrapeAPI来为我的API提供服务。前端发送类似:{"service"=>{"name"=>"Name","duration"=>"30","user"=>nil,"organization"=>"org","category"=>nil,"description"=>"description","disabled"=>true,"color"=>nil,"availabilities"=>[{"day"=>"Saturday","enabled"=>false,"timeSlots"=>[{"startAt"=>"09:00AM","endAt"=>

输入法词库解析（七）微软用户自定义短语.dat

前言

解析

生成

有关输入法词库解析（七）微软用户自定义短语.dat的更多相关文章

随机推荐