草庐IT

unicode-escape

全部标签

java - 如何禁用/避免 Java-XML 中的 Ampersand-Escaping?

我想创建一个XML,其中空格被替换为 。但是Java-Transformer转义了A符号,所以输出是 这是我的示例代码:publicclassTest{publicstaticvoidmain(String[]args){DocumentBuilderFactoryfactory=DocumentBuilderFactory.newInstance();DocumentBuilderbuilder=factory.newDocumentBuilder();Documentdocument=builder.newDocument();Elementelement=documen

java - 在 Java 正则表达式中匹配 Unicode 破折号?

我正在尝试制作一个Java正则表达式,以使用Pattern.split()将通用格式“foo-bar”的字符串拆分为“foo”和“bar”。“-”字符可能是几个破折号之一:ASCII“-”、em-dash、en-dash等。我构建了以下正则表达式:privatestaticfinalPatterntitleSegmentSeparator=Pattern.compile("\\s(\\x45|\\u8211|\\u8212|\\u8213|\\u8214)\\s");如果我正确阅读模式文档,当两边都被空格包围时,应该捕获任何unicode破折号或ascii破折号。我使用的模式如下:St

Java unicode 比较

这个问题在这里已经有了答案:关闭12年前。PossibleDuplicates:Java.IgnoreaccentswhencomparingstringsJavastringsearchingignoringaccents大家好我需要比较java中可能类似于“Chloe”和“Chloé”的字符串。我需要他们平等。任何人都知道最佳做法是什么?还是有一些第三方库?罗马

Java Unicode 字符串排序

在Java中,如何比较Unicode字符串?我的意思是,如果我有一些日语字符串,当我执行以下操作时:java.util.Arrays.sort(arrayOfJapaneseStrings);这些字符串是如何进行比较和排序的? 最佳答案 默认情况下,字符串按Unicode顺序按字典顺序排序。该顺序是按UTF-16编码的,因此某些字符可能不是您想要的,但日文字符都在BMP中。,所以你不应该有这些问题。如果您想要不同的排序顺序,可以使用java.text.Collat​​or类来定义不同的排序顺序。

java - 如何替换java字符串中的unicode字符

我的项目中有一个问题是用Java字符串中的另一个unicode字符替换一个unicode字符。在搜索和尝试不同的代码后,我没有找到解决方案,因为我想将波斯语中的一个字符替换为另一个具有不同unicode编号的波斯语字符。非常感谢任何帮助。谢谢 最佳答案 尝试此操作将解决您的问题。str.replaceAll("\\p{Sc}",string_to_replcae);示例如下:Stringstr="Forsomereasonmy�doublequotes�werelost.";str=str.replaceAll("\uFFFD","

Java:带有 unicode 字符的 String.toCharArray()

我知道char不能包含Unicode字符(比如charc='\u1023')。那我该怎么做Strings="ABCDEFG\u1023";char[]c=s.toCharArray();出于性能原因,我想将s转换为CharArray,因为我必须遍历可能很长的字符串中的每个字符,这是低效的。任何达到相同结果的东西都很好。非常感谢!编辑:实际上char可以包含unicode字符。我只是在装傻。感谢那些无论如何提供帮助的人。 最佳答案 谁告诉你在Java中char不能包含Unicode字符,waswrong:Thevaluesofthei

Java Unicode 混淆

大家好,我才刚刚开始尝试学习Java,遇到了一些非常令人困惑的事情!我正在输入我正在使用的书中的示例。这是为了证明字符数据类型。代码如下:publicclassCharDemo{publicstaticvoidmain(String[]args){chara='A';charb=(char)(a+1);System.out.println(a+b);System.out.println("a+bis"+a+b);intx=75;chary=(char)x;charhalf='\u00AB';System.out.println("yis"+y+"andhalfis"+half);}}让

java - 如何阅读非 BMP (astral) Unicode 增补字符(代码点)

G谱号(U+1D11E)不属于BasicMultilingualPlane(BMP),这意味着它需要超过16位。几乎所有Java的读取函数只返回一个char或一个int也包含only16bit.哪个函数读取完整的Unicode符号,包括SMP、SIP、TIP、SSP和PUA?更新我问过如何从输入流中读取单个Unicode符号(或代码点)。我既没有任何整数数组,也不想读取一行。可以使用Character.toCodePoint()构建代码点,但此函数需要char。另一方面,读取char是不可能的,因为read()返回一个int。到目前为止,我最好的解决方法是这个,但它仍然包含不安全的转换

java - 包含 unicode 单词的正则表达式

我想匹配包含特定单词的所有字符串。喜欢:Stringregex=(?:\P{L}|\W|^)(ベスパ)(?:\b|$)但是,Pattern类不编译它:java.util.regex.PatternSyntaxException:Unmatchedclosing')'nearindex39(?:\P{L}|\W|^)((?:ベス|ベス|ヘズ)(?:パ)|パ)|ハ)゚)(?:\b|$)我已经设置了unicode_case来编译参数,不知道这里出了什么问题finalPatternpattern=Pattern.compile(regex,Pattern.CASE_INSENSITIVE|Pa

java - iText、unicode 字符和 Java

我有一个文本编辑程序,可以将其输出保存到PDF文件中。它还将所有文本保存到PDF词典中,可以从中再次阅读。问题是在我的母语中,诸如č、ć、đ、ž、š之类的字符很常见……当我在我的程序GUI中编写这些字符时,没问题,它们都出现了(我(目前)正在使用java的arial字体)。当我保存它并打开PDFIAdob​​eReader时,čić不见了,而đ、ž和š则按应有的方式打印。我正在使用自定义(真实)字体(BookAntiqua,从here下载。这是编码问题还是字体本身的问题(不支持đ、ž、š字符)?此外,当我再次将PDF加载到我的程序中时,丢失的字母仍然丢失,并且đ、ž、š与⎕符号和类似符