是否有任何压缩算法(有损或无损)专门适用于处理现实世界(困惑和无效)的 HTML 内容?
如果不是,我们可以利用 HTML 的哪些特性来创建这样的算法?潜在的性能提升是什么?
此外,我问的问题不是为了提供此类内容(通过 Apache 或任何其他服务器),尽管这当然很有趣,而是为了存储和分析它。
更新:我指的不是 GZIP —— 这很明显 —— 而是一种专门设计用于利用 HTML 内容特性的算法。例如,可预测的标签和树结构。
最佳答案
我不知道“现成的”压缩库明确针对 HTML 内容优化。
然而,HTML 文本应该使用通用算法很好地压缩(请阅读此答案的底部以获得更好的算法)。由于特定语言习语的高度重复性,Lempel–Ziv 的所有变体通常在类似 HTML 的语言上表现良好; GZip ,经常被引用使用这种基于 LZ 的算法(我认为是 LZ77)。
一个可能改进这些通用算法的想法是用最常见的 html 标签和模式来填充一个 LZ 型循环缓冲区。以这种方式,我们将通过使用这种模式的第一个实例中的引用来减少压缩后的大小。这种增益对较小的 html 文档特别敏感。
一个互补的、类似的想法是让压缩和解压方法隐含(即不发送)LZ-x 算法的其他压缩算法的信息(比如 LZH 等情况下的哈夫曼树),使用特定于典型 HTML 的统计数据,小心地从字符中排除,计算引用编码的 [统计加权] 字符实例。这种经过过滤的字符分布可能比完整的 HTML 文本更接近纯英语(或目标网站的国家语言)。
与上述 [受过教育,我希望] 猜测无关,我开始在网上搜索有关此主题的信息。
' 找到了这个 2008 scholarly paper (pdf format)弗罗茨瓦夫大学的 Przemysław Skibiński 着。该论文的摘要表明比 GZIP 提高了 15%,压缩速度相当。
否则我可能找错地方了。似乎没有多少人对此感兴趣。可能只是因为相对于普通或适度调整的通用算法而言,额外的 yield 不足以引起这种兴趣,即使在支持网络的手机的早期(当时带宽非常宝贵...... .).
关于html - 专门针对 HTML 内容优化的压缩算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2419010/
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]
在我的Controller中,我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时,它会自然地以HTML呈现。但是,当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法),我仍然将HTML作为响应。如何获取JSON作为响应?我还需要说明什么? 最佳答案 您应该将.json附加到请求的url,提供的格式在routes.rb的路径中定义。这
所以我在关注Railscast,我注意到在html.erb文件中,ruby代码有一个微弱的背景高亮效果,以区别于其他代码HTML文档。我知道Ryan使用TextMate。我正在使用SublimeText3。我怎样才能达到同样的效果?谢谢! 最佳答案 为SublimeText安装ERB包。假设您安装了SublimeText包管理器*,只需点击cmd+shift+P即可获得命令菜单,然后键入installpackage并选择PackageControl:InstallPackage获取包管理器菜单。在该菜单中,键入ERB并在看到包时选择
我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
我正在使用Rails构建一个简单的聊天应用程序。当用户输入url时,我希望将其输出为html链接(即“url”)。我想知道在Ruby中是否有任何库或众所周知的方法可以做到这一点。如果没有,我有一些不错的正则表达式示例代码可以使用... 最佳答案 查看auto_linkRails提供的辅助方法。这会将所有URL和电子邮件地址变成可点击的链接(htmlanchor标记)。这是文档中的代码示例。auto_link("Gotohttp://www.rubyonrails.organdsayhellotodavid@loudthinking.
我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如,CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s
我正在学习http://ruby.railstutorial.org/chapters/static-pages上的RubyonRails教程并遇到以下错误StaticPagesHomepageshouldhavethecontent'SampleApp'Failure/Error:page.shouldhave_content('SampleApp')Capybara::ElementNotFound:Unabletofindxpath"/html"#(eval):2:in`text'#./spec/requests/static_pages_spec.rb:7:in`(root)'
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息,信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同,算法可以分为对称加密、非对称加密、对称加密和非