hadoop - 了解 Hadoop 文本字节偏移量

coder 2024-01-08 原文

我运行了下面的程序。

Text t = new Text("\u0041\u00DF\u6771\uD801\uDC00");
        System.out.println(t.getLength());
        System.out.println(t.find("\u0041"));
        System.out.println(t.find("\u00DF"));
        System.out.println(t.find("\u6771"));
        System.out.println(t.find("\uD801"));
        System.out.println(t.find("\uD801\uDC00"));

Output

10
0
1
3
-1
6

根据我的理解，find 返回文本中的字节偏移量。

0041 -> 01000001 , 00DF - > 11011111, 6771 -> 0110011101110001

我无法理解输出。还有为什么

t.find("\uD801")

是-1吗？

最佳答案

此示例已在 HADOOP 权威指南 一书中进行了解释。

Text 类使用UTF8 编码存储数据。由于它使用 UTF8 编码，因此 Text 中的索引基于 UTF8 编码字符的字节偏移量(与 Java String 不同，其中字节偏移量位于每个字符处)。

你可以看到这个答案，了解 Hadoop 中 Text 和 String 之间的区别: Difference between Text and String in Hadoop

文本:“\u0041\u00DF\u6771\uD801\uDC00”，解释如下:

\u0041 ==> 它的拉丁字母“A”。其UTF-8编码单元:41(1字节)
\u00DF ==> 它的拉丁字母“Sharp S”。其UTF-8编码单元:c3 9f(2字节)
\u6771 ==> 一个统一的汉字表意文字(中文)。其UTF-8编码单元:e6 9d b1(3字节)
\uD801\uDC00 ==> Deseret 字母 ( https://en.wikipedia.org/wiki/Deseret_alphabet )。其UTF-8编码单元:f0 90 90 80(4字节)

以下是字节偏移量，当它存储在 Text(UTF-8 编码)中时:

“\u0041”的偏移量 ==> 0
“\u00DF”的偏移量==> 1(因为之前的UTF-8字符占用1个字节:字符41)
“\u6771”的偏移量 ==> 3(因为之前的 UTF-8 字符占用 2 个字节:字符 c3 9f)
“\uD801\uDC00”的偏移量 ==> 6(因为之前的 UTF-8 字符占用 3 个字节:字符 e6 9d b1)

最后，最后一个 UTF-8 字符(DESERET CAPITAL LETTER LONG I)占用 4 个字节(f0 90 90 80)。

所以总长度是:1 + 2 + 3 + 4 = 10。

当你执行 t.find("\uD801") 时，你会得到 -1。因为，按照 UTF-8 编码，字符串中不存在这样的字符。

"\uD801\uDC00"被视为单个字符 (DESERET CAPITAL LETTER LONG I)。因此，当您查询“\uD801\uDC00”的偏移量时，您会得到正确答案 6。

关于hadoop - 了解 Hadoop 文本字节偏移量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34114691/

偏移 hadoop code UTF-8

有关hadoop - 了解 Hadoop 文本字节偏移量的更多相关文章

ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
Ruby - 如何将消息长度表示为 2 个二进制字节 - 2
我正在使用Ruby，我正在与一个网络端点通信，该端点在发送消息本身之前需要格式化“header”。header中的第一个字段必须是消息长度，它被定义为网络字节顺序中的2二进制字节消息长度。比如我的消息长度是1024。如何将1024表示为二进制双字节？最佳答案 Ruby(以及Perl和Python等)中字节整理的标准工具是pack和unpack。ruby的packisinArray.您的长度应该是两个字节长，并且按网络字节顺序排列，这听起来像是n格式说明符的工作:n|Integer|16-bitunsigned,network(bi
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - rspec - 我怎样才能让 "pendings"有我的文本而不仅仅是 "No reason given" - 2
我有这个代码:context"Visitingtheusers#indexpage."dobefore(:each){visitusers_path}subject{page}pending('iii'){shouldhave_no_css('table#users')}pending{shouldhavecontent('Youhavereachedthispageduetoapermissionic错误')}它会导致几个待处理，例如ManagingUsersGivenapractitionerloggedin.Visitingtheusers#indexpage.#Noreason
ruby - 了解在 Ruby 中与 lambda 一起使用的 inject 行为 - 2
我经常将预配置的lambda插入可枚举的方法中，例如“map”、“select”等。但是“注入(inject)”的行为似乎有所不同。例如与mult4=lambda{|item|item*4}然后(5..10).map&mult4给我[20,24,28,32,36,40]但是，如果我制作一个2参数lambda用于像这样的注入(inject)，multL=lambda{|product,n|product*n}我想说(5..10).inject(2)&multL因为“inject”有一个可选的单个初始值参数，但这给了我......irb(main):027:0>(5..10).inject
ruby - 如何为 pbcopy 生成富文本链接 - 2
我一直在玩一个脚本，它在Chrome中获取选定的文本并在Google中查找它，提供四个最佳选择，然后粘贴相关链接。它以不同的格式粘贴，具体取决于当前在Chrome中打开的页面-DokuWiki打开的DokuWiki格式，普通网站的HTML，我想要我的WordPress所见即所得编辑器的富文本。我尝试使用pbpaste-Preferrtf来查看没有其他样式的富文本链接在粘贴板上的样子，但它仍然输出纯文本。在文本编辑中保存文件并进行试验后，我想出了以下内容text=%q|{\rtf1{\field{\*\fldinst{HYPERLINK"URL"}}{\fldrsltTEXT}}}|te
ruby-on-rails - 如何测试自己对 Ruby/ROR 的了解？ - 2
是否有self验证的问题列表。看着那个，我可以确定我知道。我应该复习一下。在学习的过程中，我列了一个这样的list，但它只包含我在某处听说过的项目。我需要一段时间才能找到新的东西。最佳答案以下是针对ruby和Rails的一些测试列表。证书名称:RubyonRails谁提供:oDeskIncorporation认证费用:免费网站:https://www.odesk.com/tests/985?pos=0证书名称:RubyonRails提供者:Techgig.com(TimesBusinessSolutionsLimited(T
ruby-on-rails - 了解 "attribute_will_change!"方法 - 2
我想覆盖store_accessor的getter。可以查到here.代码在这里:#Fileactiverecord/lib/active_record/store.rb,line74defstore_accessor(store_attribute,*keys)keys=keys.flatten_store_accessors_module.module_evaldokeys.eachdo|key|define_method("#{key}=")do|value|write_store_attribute(store_attribute,key,value)enddefine_met
ruby-on-rails - 尝试打开 .gitignore 以在文本编辑器中对其进行编辑，但在 OS X Mountain Lion 上找不到文件位置 - 2
我使用“newapp_name”创建了一个新的Rails应用程序，我正在尝试编辑.gitignore文件，但在我的应用程序文件夹中找不到它。我在哪里可以找到它？我安装了Git。最佳答案 .gitignore位于项目的root中，而不是app子目录中。首先打开终端并进入您的目录。您需要使用ls-a来显示stash文件。然后使用打开.gitignore 关于ruby-on-rails-尝试打开.gitignore以在文本编辑器中对其进行编辑，但在OSXMountainLion上找不到文件位
ruby - 如何将一段文本可逆地压缩成更少的 ASCII 字符？ - 2
我想获取任意的ASCII文本字符串，例如“Helloworld”，并将其压缩为字符数较少(尽可能少)的版本，但要采用可以解压缩的方式。压缩版本应仅由ascii字符组成。有没有一种方法可以做到这一点，尤其是在Ruby中？最佳答案如果知道只会使用ASCII字符，那就是每个字节的低7位。通过位操作，您可以将每8个字节混合成7个字节(节省12.5%)。如果您可以将其放入更小的范围(仅限64个有效字符)，则可以删除另一个字节。但是，因为您希望压缩形式也只包含ASCII字符，所以会丢失一个字节-除非您的输入可以限制为64个字符(例如，有损压

hadoop - 了解 Hadoop 文本字节偏移量

有关hadoop - 了解 Hadoop 文本字节偏移量的更多相关文章

随机推荐