unicode-normalization
全部标签 在我的Rails(2.3,Ruby1.8.7)应用程序中,我需要将字符串截断到一定长度。该字符串是unicode,在控制台中运行测试时,例如'א'.length,我意识到返回了双倍长度。我想要一个与编码无关的长度,以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料,但仍然有些一头雾水。应该如何解决这个问题? 最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)
我遇到了一个非常困难的时期:#containedwithin:"MA\u008EEIKIAI"#shouldbe"MAŽEIKIAI"#natureofstring$pstring3"MA\u008EEIKIAI"$putsstring3MAEIKIAI$string3.inspect"\"MA\\u008EEIKIAI\""$string3.bytes#关于从哪里开始的任何想法?注意:这不是我的previousquestion的副本. 最佳答案 \u008E表示代码点为8e(十六进制)的unicode字符出现在字符串中的那个位置。
不幸的是,Unicode0.1(sudogeminstallunicode)不能在Ruby1.9上运行。我有以下片段:require"rubygems"require"unicode"str="áéíóúç"Unicode.normalize_KD(str).gsub(/[^\x00-\x7F]/n,"")#=>aeiouc我用它来将标题转换为永久链接,而不删除重音字符。有没有办法使用pack或unpack方法转换此类文本? 最佳答案 更新:更好的选择可能是使用gemunicode_utils这是专门为这些缺失的功能创建的:requ
我正在编写一个Rails应用程序,它需要将IDN域名从Punycode转换为它的Unicode等效项。我尝试安装idngem绑定(bind)到GNULibIDN,但它不会编译native代码。显然others与Ruby1.9.x有同样的问题。我也试过纯RubySimpleIDNgem,但我更喜欢本地的东西。 最佳答案 试试simpleidngem.它适用于Ruby1.8.7和1.9.2。编辑你的Gemfile:gem'simpleidn'然后可以输入如下命令:SimpleIDN.to_unicode("xn--mllerriis-l
我无法遍历整个unicode字符范围。我到处找...我正在构建一个模糊器,并希望将所有unicode字符(一次一个)嵌入到一个url中。例如:http://www.example.com?a=\uff1c我知道有一些内置工具,但我需要更多的灵active。如果我能像下面那样做:"\u"+"ff1c"那就太好了。这是我得到的最接近的:char="\u0000"...#withiniterationchar.succ!...但在字符"\u0039"之后,即数字9,我将得到"10"而不是":" 最佳答案 您可以使用pack将数字转换为UT
使用Ruby,我必须将字符串以柱状格式输出到终端。像这样:|row1|astringhere|etc|row2|anotherstring|etc我可以使用String#ljust和%s处理拉丁UTF8字符。但是当字符是韩文、中文等时就会出现问题。当英文行与包含韩文等的行交错时,列根本不会对齐。如何在此处实现列对齐?有没有办法以等同于固定宽度字体的方式输出亚洲字符?对于要在Vim中显示和编辑的文档怎么样? 最佳答案 您的问题发生在CJK(中文/日文/韩文)full-widthandwidecharacters(也向下滚动图表);这些
在Ruby、Javascript和Java(其他我没试过)中,有西里尔字符Я̆Я̄Я̈长度2。当我尝试用这些字符检查字符串的长度时,我得到了错误的输出值。"Я̈".mb_chars.length#=>2#shouldbe1(rubyonrails)"Я̆".length#=>2#shouldbe1(ruby,javascript)"Ӭ".length#=>1#correct(ruby,javascript)请注意,字符串以UTF-8编码,每个字符都表现为单个字符。我的问题是为什么会有这样的行为,我怎样才能正确地得到带有这些字符的字符串的长度? 最佳答案
我必须阅读一些包含以下内容的文本文件:\u201CGushingCross的小贩夫人\u201D在ruby1.9终端中,当我创建一个包含以下内容的字符串时:ruby-1.9.1-p378>"\u2714\u2714mygreatstring\u2714\u2714"=>"✔✔mygreatstring✔✔"在ruby1.8中,我没有将unicode代码转换为它们的字符:ree-1.8.7-2010.01>"\u2714\u2714mygreatstring\u2714\u2714"=>"u2714u2714mygreatstringu2714u2714"有什么简单的方法可以在R
我正在尝试使用wicked_pdf(版本1.1)和wkhtmltopdf-binarygem从html页面创建pdf。我的html页面包含一个日历表情符号,无论我使用什么字体,它都能在浏览器中很好地显示unicode{font-family:'OpenSansEmoji',sans-serif;}@font-face{font-family:'OpenSansEmoji';src:url(data:font/truetype;charset=utf-8;base64,)format('truetype');}📅但是,当我尝试使用Rails控制台中gem的WickedPd
根据theOnigurumadocumentation,\d字符类型匹配:decimaldigitcharUnicode:General_Category--Decimal_Number但是,在包含所有Decimal_Number字符的字符串中扫描\d会导致仅匹配拉丁文0-9数字:#encoding:utf-8require'open-uri'html=open("http://www.fileformat.info/info/unicode/category/Nd/list.htm").readdigits=html.scan(/U\+([\da-f]{4})/i).flatten.