草庐IT

xml - 在XML中编码二进制数据:是否有比base64更好的替代方法?

coder 2024-06-24 原文

我想在一个xml文件中对二进制数据进行编码和解码(使用python,但不管怎样)。我不得不面对这样一个事实:XML标记内容包含非法字符。唯一允许的在XML specs中描述:

Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

这意味着不允许的是:
29个Unicode控制字符是非法的(0x00-0x20)IE(000xxxxx),除了0x09、0x0a、0x0d
任何超过2字节(utf-16+)的unicode字符表示都是非法的(u+d800-u+dfff)ie(11011xxx)
特殊的unicode非字符是非法的(0xfffe-0xffff)ie(1111111111111x)
<,>,根据this post实体内容
1个字节可以编码256个可能值。有了这些限制,第一个字节被限制为256-29-8-1-3=215个可能值。
在第一个字节的215个可能性中,base64只使用64个可能性。Base64产生33%的开销(一旦用Base64编码,6位就变成1字节)。
所以我的问题很简单:有没有比base64更有效的算法来编码xml中的二进制数据?如果不是,我们应该从哪里开始创建它?(图书馆等)
注意:你不会用“你不应该用XML来编码二进制数据,因为…”来回答这篇文章。不要这样做。您最多可以争论为什么不使用215种可能的错误XML解析器支持。
NB2:我不是说第二个字节,但肯定有一些考虑因素,我们可以制定关于可能性的数量,事实上,它应该以10xxxxxx开始,以尊重UTF8标准,当我们使用补充Unicode平面(如果不是呢?).

最佳答案

感谢阿雅为asc85链接,有非常好的想法。
我在下面为我们的案子开发了它们。
UTF-8字符可能:
对于1字节字符(0xxxxxxx):每字节96个可能值
+utf-8 ascii字符0xxxxxxx=+2^7
-UTF-8控制字符000xxxxx=-2^5
+XML允许的UTF-8控制字符(000000090000000A,0000000D)=+3
-XML实体不允许的字符(<,>,&)=-3
编辑:这是针对xml1.0规范的。XML 1.1 specs允许使用除0x00以外的控制字符…
对于2字节字符(110xxxxx10xxx):每2字节有1920个字节
+utf-8双字节字符110xxxxx10xxxxxx=+2^11
-utf-8非法非规范字符(1100000x10xxx)=-2^7
对于3字节字符(1110xxxx 10xxxxx 10xxxxxx):每3字节61440个字节
+UTF-8 3字节字符1110xxxx 10xxxxx 10xxxxxx=+2^16
-utf-8非法非规范字符(11100000100xxxxx10xxxxxx)=-2^11
-Unicode保留UTF-16码位(11101101 101xxxxx 10xxxxxx)=-2^11
我不会对4字节字符进行计算,这是毫无意义的:可能的字符数可以忽略不计,在这个范围内有太多非法的utf-8字符。
在3字节的空间中编码的可能性
因此,让我们看看在3字节(24位)空间上可以进行哪些组合:
0xxxxxxx 0xxxxxxx 0xxxxxxx:这是96*96*96=884736的可能性
0xxxxxx 110xxxxx 10xxxxxx:这是96*1920=184320个可能性
110xxxxx10xxxxxx:1920*96=184320个可能性
1110xxxx 10xxxxx 10xxxxxx:这是61440=61440的可能性
还有其他的可能性(比如3字节的字符以空格结尾或开头,但是4字节的字符,这对我来说很难计算,而且可能可以忽略不计)。
可能性总数:
3字节的空间有2^24=16777216
可能性。
UTF-8兼容的可能性是884736+2*184320+61440=1314816。
这意味着多少开销?
24位空间可用位:log2(16777216)=24(当然!这是为了理解数学)
这个空间的utf-8有用位:log2(1314816)=20,32有用位。
这意味着我们需要24位的空间来编码20,32位的有用信息,也就是说,最小的理论开销是18% overhead。比Base64的33%开销和Ascii85的25%开销要好得多!
编辑:这是针对xml1.0规范的。对于xml1.1(未得到广泛支持…),理论开销为12.55%。我设法用xml1.1 14.7%的开销实现了一个二进制安全算法。
如何接近18%的间接费用?
坏消息是,我们不可能轻易地得到18%的爱,而不使用一个大的“措辞”(即长编码集)。但是20%很容易拿到,19%很容易但不太实用。
良好的编码长度候选:
6位可以用20%的开销对5位进行编码(2^(6*0,84)>2^5)
12位可以用20%的开销对10位进行编码(2^(12*0,84)>2^10)
24位可以用20%的开销对20位进行编码(2^(24*0,84)>2^20)
25位可以用19%的开销对21位进行编码(2^(25*0,84)>2^21)
nb:0,84是空间位(20,32/24)的平均“有用性”。
如何建立我们的编码算法?
我们需要建立一个“dictionary”,将“space possibles”(长度为5、10、20或21位的随机位序列,取决于为算法选择的编码长度-只需选择一个)映射到utf8兼容序列(长度为6、12的utf8位序列,24或25位)。
最简单的起点是将20位序列编码成24位兼容的utf-8序列:这正是上面用来计算可能性的示例,长度为3 utf-8字节(因此我们不必担心未终止的utf8字符)。
注意,我们必须使用2字节(或更高)的utf-8字符编码空间来达到20%的开销。只有1字节长的utf8字符,使用基数-24时,我们只能达到25%的开销。但是,3字节长的utf-8字符不需要达到20%的开销。
这是这个问题的下一个挑战。谁想玩?:)
一个算法建议,我将为xml命名baseutf-8
要编码的20个二进制位:abcdefghijklmnopqrst
生成名为“encoded”的utf-8字符串:24位长
数学编码算法(不基于任何已知的编程语言):

If GH != 00 && NO != 00:
    encoded = 01ABCDEF 0GHIJKLM 0NOPQRST # 20 bits to encode, 21 space bits with restrictions (1-byte UTF-8 char not starting by 000xxxxx ie ASCII control chars)

If ABCD != 0000:
    If GH == 00 && NO == 00: # 16 bits to encode
        encoded = 0010ABCD 01EFIJKL 01MPQRST    
    Else If GH == 00:  # 18 bits to encode, 18 space bits with restrictions (1-byte  UTF-8 ASCII control char, 2-bytes UTF-8 char noncanonical)
        encoded = 0NOFIJKL 110ABCDE 10MPQRST
    Else If NO == 00:  # 18 bits to encode
        encoded = 110ABCDE 10MPQRST 0GHFIJKL

If ABCD == 0000: # 16 bits to encode
    encoded = 0011EFGH 01IJKLMN 01OPQRST

On "encoded" variable apply:
    convert < (0x3C) to Line Feed (0x0A)
    convert > (0x3E) to Cariage Return (0x0D)
    convert & (0x26) to TAB (0x09)

所以你只能得到20%的间接费用。
当要编码的字符串不是20的倍数时,此算法尚未提供管理字符串终止的方法。还必须提供解码算法,但这很容易(不要忘记抛出异常以强制解码的唯一性)。

关于xml - 在XML中编码二进制数据:是否有比base64更好的替代方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17301940/

有关xml - 在XML中编码二进制数据:是否有比base64更好的替代方法?的更多相关文章

  1. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  2. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

    我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

  3. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  5. ruby - 用逗号、双引号和编码解析 csv - 2

    我正在使用ruby​​1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\

  6. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

  7. ruby - 检查数组是否在增加 - 2

    这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife

  8. ruby - 检查字符串是否包含散列中的任何键并返回它包含的键的值 - 2

    我有一个包含多个键的散列和一个字符串,该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么,如果包含,则返回它包含的键的值?例如,对于上面的h和s的例子,输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。 最佳答案

  9. ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2

    我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby​​是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查

  10. ruby - 检查日期是否在过去 7 天内 - 2

    我的日期格式如下:"%d-%m-%Y"(例如,今天的日期为07-09-2015),我想看看是不是在过去的七天内。谁能推荐一种方法? 最佳答案 你可以这样做:require"date"Date.today-7 关于ruby-检查日期是否在过去7天内,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/32438063/

随机推荐