Unicode_草庐IT

java - 什么时候应该使用 InputStreamReader 和 OutputStreamWriter？

来自JavaTutorial站点，我们知道InputStreamReader和OutputStreamWriter可以在字节和字符之间转换流。InputStreamReader将从输入读取的字节转换为字符，而OutputStreamWriter将字符转换为字节以输出。但是我什么时候应该使用这两个类呢？我们有Inputstream/OutputStream逐字节输入/输出，Reader/Writer逐字符输入/输出。那么在使用InputStreamReader从字节流中输入字符时，为什么不直接使用Reader类(或其子类)来读取字符呢？为什么不用OutputStream代替OutputS

java - 如何将拉丁 unicode 字符替换为 [a-z] 字符

我正在尝试将所有拉丁unicode字符转换为它们的[a-z]表示ó-->oí-->i我可以很容易地一个一个地做，例如:myString=myString.replaceAll("ó","o");但是由于有大量的变化，这种方法是不切实际的在Java中还有其他方法吗？例如正则表达式，或实用程序库用例:1-城市名称从另一种语言翻译成英文，例如圣埃斯皮里图-->圣埃斯皮里图最佳答案此答案需要Java1.6或更高版本，其中添加了java.text.Normalizer.Stringnormalized=Normalizer.normali

unicode java code section 34 regex string normalization

Java从字符串中删除非拉丁基本字符

假设我有以下代码:Stringdescription="★★★★★♫♬Thisdescription✔✔▬█✖isamess.♫♬★★★★★";我想删除非拉丁字符:✔、̶、█、✖,♫,♬和★。让它变成这样:这个描述一团糟。我知道可能有很多类似翅膀的字符，所以我认为最好列出我想保留的内容，而不是指定我想删除的内容:BasicLatin和Latin-1supplements字符。我发现我可以使用下面的代码删除除基本拉丁字符以外的所有内容Stringclean_description=description.replaceAll("[^\\x00-\\x7F]","").trim();但是有

本字丁基 code section description java regex unicode

java - 替换 Unicode 控制字符

我需要用Java替换字符串中的所有特殊控制字符。我想问谷歌地图APIv3，谷歌似乎不喜欢这些字符。示例:http://www.google.com/maps/api/geocode/json?sensor=false&address=NEW%20YORK%C2%8F此URL包含此字符:http://www.fileformat.info/info/unicode/char/008f/index.htm所以我收到了一些数据，我需要对这些数据进行地理编码。我知道有些字符不会通过地理编码，但我不知道确切的列表。我找不到关于这个问题的任何文档，所以我认为Google不喜欢的字符列表是这个:ht

Unicode java code noreferrer noopener regex google-maps character-properties

java - 在 Java 正则表达式中匹配 Unicode 破折号？

我正在尝试制作一个Java正则表达式，以使用Pattern.split()将通用格式“foo-bar”的字符串拆分为“foo”和“bar”。“-”字符可能是几个破折号之一:ASCII“-”、em-dash、en-dash等。我构建了以下正则表达式:privatestaticfinalPatterntitleSegmentSeparator=Pattern.compile("\\s(\\x45|\\u8211|\\u8212|\\u8213|\\u8214)\\s");如果我正确阅读模式文档，当两边都被空格包围时，应该捕获任何unicode破折号或ascii破折号。我使用的模式如下:St

破折破折号 code java regex unicode character-properties

Java unicode 比较

这个问题在这里已经有了答案:关闭12年前。PossibleDuplicates:Java.IgnoreaccentswhencomparingstringsJavastringsearchingignoringaccents大家好我需要比较java中可能类似于“Chloe”和“Chloé”的字符串。我需要他们平等。任何人都知道最佳做法是什么？还是有一些第三方库？罗马

unicode Java section notice accents string

Java Unicode 字符串排序

在Java中，如何比较Unicode字符串？我的意思是，如果我有一些日语字符串，当我执行以下操作时:java.util.Arrays.sort(arrayOfJapaneseStrings);这些字符串是如何进行比较和排序的？最佳答案默认情况下，字符串按Unicode顺序按字典顺序排序。该顺序是按UTF-16编码的，因此某些字符可能不是您想要的，但日文字符都在BMP中。,所以你不应该有这些问题。如果您想要不同的排序顺序，可以使用java.text.Collator类来定义不同的排序顺序。

Unicode Java section Basic_Multilingual_Plane string collation unicode-string

java - 如何替换java字符串中的unicode字符

我的项目中有一个问题是用Java字符串中的另一个unicode字符替换一个unicode字符。在搜索和尝试不同的代码后，我没有找到解决方案，因为我想将波斯语中的一个字符替换为另一个具有不同unicode编号的波斯语字符。非常感谢任何帮助。谢谢最佳答案尝试此操作将解决您的问题。str.replaceAll("\\p{Sc}",string_to_replcae);示例如下:Stringstr="Forsomereasonmy�doublequotes�werelost.";str=str.replaceAll("\uFFFD","

java unicode section 波斯语

Java:带有 unicode 字符的 String.toCharArray()

我知道char不能包含Unicode字符(比如charc='\u1023')。那我该怎么做Strings="ABCDEFG\u1023";char[]c=s.toCharArray();出于性能原因，我想将s转换为CharArray，因为我必须遍历可能很长的字符串中的每个字符，这是低效的。任何达到相同结果的东西都很好。非常感谢!编辑:实际上char可以包含unicode字符。我只是在装傻。感谢那些无论如何提供帮助的人。最佳答案谁告诉你在Java中char不能包含Unicode字符，waswrong:Thevaluesofthei

toCharArray unicode section code char java string arrays

java - 将 ISO8859 字符串转换为 UTF8？ ÄÖÜ => ÃÃ 为什么？

这段代码有什么问题？我制作了一个ISO8859字符串。所以大多数ÄÖÜ都是一些krypo输出。没关系。但是如何将它们转换回普通字符(UTF8或其他)？Strings=newString("Üü?öäABC".getBytes(),"ISO-8859-15");System.out.println(s);//ÃÃŒ?Ã¶Ã€ABC=>ok(?)System.out.println(newString(s.getBytes(),"ISO-8859-15"));//ÃÂÃÅ?ÃÂ¶Ãâ¬ABC=>ok(?)System.out.println(newString(s.getBytes(),"

Atilde java code strong String unicode character-encoding