java - 在 Android 中区分 CJK 语言(中文、日文、韩文)

coder 2023-11-28 原文

我希望能够识别中文、日文和韩文的书面字符，既可以作为一般语言，也可以作为分割语言。这些是原因:

将 CJK 识别为一个通用组:我正在制作一个垂直脚本蒙古语 TextView。为此，我需要将文本行旋转 90 度，因为字形是水平存储在字体中的。但是，对于 CJK 语言，我需要将它们再次旋转回来，以便它们以正确的方向书写，但只是彼此堆叠在一起。
将 CJK 区分为特定语言:我也在制作蒙古语词典，当用户输入 CJK 字符进行查找时，我想自动识别该语言。因为汉字也被日本人和韩国人使用，我猜我不能完全做到这一点，但我想在编码允许的最大程度上做到这一点。

在语言方面，我知道的子类别是

为了完整起见，Vietnamese中也使用了汉字(因此 CJK 也称为 CJKV)。对于我目前的目的，我不需要担心它，但它可能是 future 的考虑因素。我也忽略了像中文这样的罗马化脚本 pinyin或日语 romaji .它们在 TextView 中的处理方式与英语和蒙古语相同(即，与该行的其余部分一起旋转 90 度)。 Bopomofo在台湾使用也可能是 future 的考虑，但我暂时不考虑。另见 here和 here语言示例。

我见过许多相关问题，这些问题通常涉及 Java 或 Android 中的一种特定语言，但没有包含规范答案的总体问题。其他问题对于 Unicode 更为普遍，但没有说明如何在 Java 和 Android 中进行。以下是一些具体的内容。

所以我的问题是，使用 Unicode 代码点可以在多大程度上区分 CJK 语言以及如何在 Android 中测试它们？我在 Java 和 Android 中看到了一些较新的测试，虽然了解这些测试很有用，但我还需要支持较旧的 Android 设备。

最佳答案

统一码

Unicode中的CJK(和CJKV)是指Han Ideographs，即用于中文、日文、韩文和越南文的汉字(汉字)。对于 Unicode 脚本命名，它不指的是日语片假名和平假名或韩语韩文等注音文字。据说汉 Intent 是统一的。他们的意思是每个表意文字只有一个 Unicode 代码点，无论它用于哪种语言。

这意味着 Unicode(以及相反的 Android/Java)无法提供仅基于单个表意文字来确定语言的方法。即使是中文简体/繁体字符也不容易与编码区分开来。这与无法知道字符“a”属于英语、法语还是西类牙语是一样的。需要更多上下文才能确定这一点。

但是，您可以使用 Unicode 编码来确定日文平假名/片假名和韩文韩文。而这些字符的存在将很好地表明附近的汉表意文字属于同一种语言。

安卓

你可以在一些索引处找到代码点

int codepoint = Character.codePointAt(myString, offset)

如果你想 iterate through the codepoints in a string :

final int length = myString.length();
for (int offset = 0; offset < length; ) {
    final int codepoint = Character.codePointAt(myString, offset);

    // use codepoint here

    offset += Character.charCount(codepoint);
}

一旦你有了代码点，你就可以查找它在哪个代码块中了

Character.UnicodeBlock block = Character.UnicodeBlock.of(codepoint);

然后您可以使用代码块来测试表意文字或语言。

中日韩文

扫描Unicode代码块，我认为这些涵盖了所有CJK表意文字。如果我遗漏了任何内容，请随时编辑我的答案或发表评论。

private boolean isCJK(int codepoint) {
    Character.UnicodeBlock block = Character.UnicodeBlock.of(codepoint);
    return (
            Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS.equals(block)||
            Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A.equals(block) ||
            Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B.equals(block) ||
            Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C.equals(block) || // api 19
            Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D.equals(block) || // api 19
            Character.UnicodeBlock.CJK_COMPATIBILITY.equals(block) ||
            Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS.equals(block) ||
            Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS.equals(block) ||
            Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT.equals(block) ||
            Character.UnicodeBlock.CJK_RADICALS_SUPPLEMENT.equals(block) ||
            Character.UnicodeBlock.CJK_STROKES.equals(block) ||                        // api 19
            Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION.equals(block) ||
            Character.UnicodeBlock.ENCLOSED_CJK_LETTERS_AND_MONTHS.equals(block) ||
            Character.UnicodeBlock.ENCLOSED_IDEOGRAPHIC_SUPPLEMENT.equals(block) ||    // api 19
            Character.UnicodeBlock.KANGXI_RADICALS.equals(block) ||
            Character.UnicodeBlock.IDEOGRAPHIC_DESCRIPTION_CHARACTERS.equals(block));
}

带注释的(向右滚动)仅在 API 级别 19 中可用。但是，如果您需要支持早期版本，则可以安全地删除这些，因为它们很少使用。此外，Unicode 定义了 CJK 扩展 E，但在撰写本文时，Android/Java 不支持它。如果您确实需要包含所有内容，那么您可以直接将代码点与 Unicode block 范围进行比较。 This site is a convenient place to browse them.您还可以在 Unicode site 查看它们.

如果你不需要支持 API 19 以下，那么 isIdeographic 使测试变得非常简单(虽然我不知道它是否返回与上面的方法完全相同的匹配)。

private boolean isCJK(int codepoint) {
    return Character.isIdeographic(codepoint);
}

或者 API 24+ 的这个:

private boolean isCJK(int codepoint) {
    return (Character.UnicodeScript.of(codepoint) == Character.UnicodeScript.HAN);
}

日语

对于测试平假名或片假名，这应该可以正常工作:

private boolean isJapaneseKana(int codepoint) {
    Character.UnicodeBlock block = Character.UnicodeBlock.of(codepoint);
    return (
            Character.UnicodeBlock.HIRAGANA.equals(block) ||
            Character.UnicodeBlock.KATAKANA.equals(block) ||
            Character.UnicodeBlock.KATAKANA_PHONETIC_EXTENSIONS.equals(block));
}

如果您支持 API 24+，则执行此操作:

(这需要更多测试。请参阅下面的评论。)

private boolean isJapaneseKana(int codepoint) {
    return (Character.UnicodeScript.of(codepoint) == Character.UnicodeScript.HIRAGANA || 
            Character.UnicodeScript.of(codepoint) == Character.UnicodeScript.KATAKANA);
}

韩语

要在较低的 API 上测试韩文，您可以使用

private boolean isKoreanHangul(int codepoint) {
    Character.UnicodeBlock block = Character.UnicodeBlock.of(codepoint);
    return (Character.UnicodeBlock.HANGUL_JAMO.equals(block) ||
            Character.UnicodeBlock.HANGUL_JAMO_EXTENDED_A.equals(block) || // api 19
            Character.UnicodeBlock.HANGUL_JAMO_EXTENDED_B.equals(block) || // api 19
            Character.UnicodeBlock.HANGUL_COMPATIBILITY_JAMO.equals(block) ||
            Character.UnicodeBlock.HANGUL_SYLLABLES.equals(block));
}

如有必要，删除标记为 API 19 的行。

或者对于 API 24+:

private boolean isKoreanHangul(int codepoint) {
    return (Character.UnicodeScript.of(codepoint) == Character.UnicodeScript.HANGUL);
}

进一步研究

Unicode East Asian scripts
Unicode CJK FAQs
Unicode Korean FAQs
Some source code这显示了 Character.UnicodeScript 是如何工作的
CJK Unified Ideographs

关于java - 在 Android 中区分 CJK 语言(中文、日文、韩文)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41982073/

韩文日文 Character UnicodeBlock noreferrer java android unicode cjk

有关java - 在 Android 中区分 CJK 语言(中文、日文、韩文)的更多相关文章

ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
java - 等价于 Java 中的 Ruby Hash - 2
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么？最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设？关于java-等价于Java中的RubyHash，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/22737685/
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
java - 从 JRuby 调用 Java 类的问题 - 2
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java，并成功地将它与另一个Java包一起使用，但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
java - 我的模型类或其他类中应该有逻辑吗 - 2
我只想对我一直在思考的这个问题有其他意见，例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
Observability：从零开始创建 Java 微服务并监控它（二） - 2
这篇文章是继上一篇文章“Observability：从零开始创建Java微服务并监控它（一）”的续篇。在上一篇文章中，我们讲述了如何创建一个Javaweb应用，并使用Filebeat来收集应用所生成的日志。在今天的文章中，我来详述如何收集应用的指标，使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值，然后一切都回到一个请求。这也意味着这些指标可能不准确，你还想提取最小/
【Java 面试合集】HashMap中为什么引入红黑树，而不是AVL树呢 - 2
HashMap中为什么引入红黑树，而不是AVL树呢1.概述开始学习这个知识点之前我们需要知道，在JDK1.8以及之前，针对HashMap有什么不同。JDK1.7的时候，HashMap的底层实现是数组+链表JDK1.8的时候，HashMap的底层实现是数组+链表+红黑树我们要思考一个问题，为什么要从链表转为红黑树呢。首先先让我们了解下链表有什么不好？？？2.链表上述的截图其实就是链表的结构，我们来看下链表的增删改查的时间复杂度增：因为链表不是线性结构，所以每次添加的时候，只需要移动一个节点，所以可以理解为复杂度是N(1)删：算法时间复杂度跟增保持一致查：既然是非线性结构，所以查询某一个节点的时候

java - 在 Android 中区分 CJK 语言(中文、日文、韩文)

统一码

安卓

进一步研究

有关java - 在 Android 中区分 CJK 语言(中文、日文、韩文)的更多相关文章

随机推荐