Utf-8_草庐IT

ruby-on-rails - 如何全局忽略 UTF-8 字符串中的无效字节序列？

我有一个Rails应用程序从Rails版本1开始迁移，我想忽略它上面的所有无效字节序列，以保持向后兼容性。我不知道输入编码。例子:>"-Men\xFC-".split("n")ArgumentError:invalidbytesequenceinUTF-8from(irb):4:in`split'from(irb):4from/home/fotanus/.rvm/rubies/ruby-2.0.0-rc2/bin/irb:16:in`'我可以在一行中解决这个问题，例如:>"-Men\xFC-".unpack("C*").pack("U*").split("n")=>["-Me","ü-

UTF-8 ruby-on-rails 34 section ruby encoding

ruby - 将 unicode 代码点转换为 Ruby 中的字符串字符

我有来自unicode数据库的这些值，但我不确定如何将它们转换为人类可读的形式。这些到底叫什么？他们在这里:U+2B71FU+2A52DU+2A68FU+2A690U+2B72FU+2B4F7U+2B72B如何将这些转换为可读的符号？最佳答案怎么样:#Usingpackputs["2B71F".hex].pack("U")#Usingchrputs(0x2B71F).chr(Encoding::UTF_8)在Ruby1.9+中你还可以:puts"\u{2B71F}"即\u{}转义序列可用于解码Unicode代码点。

unicode ruby code section li string utf-8

ruby `split' : invalid byte sequence in UTF-8 (ArgumentError)

我正在尝试填充电影对象，但在解析u.item文件时出现此错误:`split':invalidbytesequenceinUTF-8(ArgumentError)File.open("Data/u.item","r")do|infile|whileline=infile.getsline=line.split("|")endend仅当尝试使用花哨的国际标点符号拆分行时才会发生错误。这是一个例子543|Misérables,Les(1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Mis%E9rables%2C%20Les%20%281

UTF-8 ArgumentError section blockquote code ruby character-encoding argument-error

UTF-8 中的 Ruby 无效字节序列

我有以下代码，它给了我一个指向扫描方法的无效字节序列错误initialize.有想法该怎么解决这个吗？对于它的值(value)，错误不会在(.*)时发生。在h1标签和结束>之间不存在。#!/usr/bin/envrubyclassNewsParserdefinitializeDir.glob("./**/index.htm")do|file|@file=IO.readfileparsed=@file.scan(/(.*?)(.*)/im)self.write(parsed)endenddefwriteoutput@contents=outputopen('output.txt','a'

UTF-8 Ruby code section file

ruby 1.9 : Convert byte array to string with multibyte UTF-8 characters

我正试图在Ruby中找到一种方法来获取UTF-8字节数组并将其转换回字符串。在irb(Ruby1.9.2预览版3)中，我可以从UTF-8字符串创建正确的字节数组:ruby-1.9.2-preview3>'Café'.bytes.to_a=>[67,97,102,195,169]但是，我找不到从字节返回数组的方法。我尝试将Array.pack与U*选项一起使用，但这不适用于多字节字符。ruby-1.9.2-preview3>[67,97,102,195,169].pack('U*')=>"CafÃ©"有没有人知道如何将包含多字节字符的UTF-8字节数组转换回字符串？谢谢。

UTF-8 characters section code ruby unicode

ruby-on-rails - 如何使用 OpenSSL::Cipher 加密 UTF-8 字符串中的数据？

在Rails3.0(Ruby1.9.2)应用程序中，我正在尝试使用如下方式加密一些数据:cipher=OpenSSL::Cipher.new'aes-256-cbc'cipher.encryptcipher.key=cipher.random_keycipher.iv=cipher.random_ivencrypted=cipher.update'mostsecretdataintheworld'encrypted这将进入UTF-8数据库。我的问题是>encrypted.encoding=>#>encrypted.encode'utf-8'Encoding::UndefinedConv

UTF-8 ruby-on-rails cipher section ruby openssl aes

ruby-on-rails - ruby 正则表达式错误 : incompatible encoding regexp match (ASCII-8BIT regexp with UTF-8 string)

我遇到了两个错误，都与编码有关并且都相关。我在启动WEBrick时遇到的第一个错误(技术上是警告):/Users/USERNAME/example/config/initializers/bb-ruby.rb:54:warning:invalidUnicodeProperty\P:/\:\-?\P/它所指的行是:/\:\-?\P/,这只是一些正则表达式，最终是这个block的一部分:@@tags['Razzing']=[/\:\-?\P/,'','Razzing',':P',:razzing]然后，我在解析一些字符串时也得到了以下错误(大概是由于同一行)...Encoding::Com

UTF-8 regexp code section ruby-on-rails ruby unicode encoding character-encoding

ruby - Nokogiri、open-uri 和 Unicode 字符

我正在使用Nokogiri和open-uri来抓取网页上标题标签的内容，但在处理重音字符时遇到了问题。处理这些问题的最佳方法是什么？这是我正在做的:require'open-uri'require'nokogiri'doc=Nokogiri::HTML(open(link))title=doc.at_css("title")此时，标题看起来是这样的:Rag\303\271代替:Ragù我怎样才能让nokogiri返回正确的字符(例如本例中的ù)？这是一个示例网址:http://www.epicurious.com/recipes/food/views/Tagliatelle-with-

Nokogiri open-uri UTF-8 code ruby unicode screen-scraping

ruby-on-rails - Ruby 2.0.0 字符串#Match ArgumentError : invalid byte sequence in UTF-8

我经常看到这种情况，但还没有想出一个优雅的解决方案。如果用户输入包含无效的字节序列，我需要能够让它不引发异常。例如:#@raw_responsecomesfromuserandcontainsinvalidUTF-8#forexample:@raw_response="\xBF"regex.match(@raw_response)ArgumentError:invalidbytesequenceinUTF-8已经问了很多类似的问题，结果似乎是对字符串进行编码或强制编码。然而，这些都不适合我:regex.match(@raw_response.force_encoding("UTF-8"

UTF-8 ruby-on-rails code invalid ruby ruby-on-rails-4 ruby-2.0

ruby-on-rails - 在 Ruby on Rails 中， '#encoding: utf-8' 和 'config.encoding = "utf-8"' 是否不同？

我可以通过在其顶部添加注释行来指定任何ruby文件使用特定编码:#encoding:utf-8但是在Rails的config/application.rb中，我发现了这个:config.encoding="utf-8"它们有什么不同吗？如果我设置了config.encoding="utf-8"，我还需要#encoding:utf-8吗？最佳答案 config/application.rb中的config.encoding="utf-8"部分与Rails应如何解释内容有关。ruby文件中的#encoding:utf-8告诉rub

amp encoding code section ruby-on-rails ruby