详细代码:https://github.com/cxcn/dtool前言微软拼音和微软五笔通用的用户自定义短语dat格式。解析前8个字节标识文件格式machxudp,微软五笔的lex格式是imscwubi。下面8个字节应该是版本号。接下来每4字节一组,分别表示偏移表开始、词条开始、文件总长、词条数、导出的时间戳。然后补0一直到偏移表开始。偏移表记录了每个词条从词条开始的偏移量,每4个字节一组。接下来就是词条本体部分:#占用字节数描述410001000标记a2该词条总字节长-词占用的字节长1在候选中的位置10x06或0x13,未知404从2010-01-01开始的时间戳a-16编码(utf-16