草庐IT

如何在 Java 中将 InputStream 读取/转换为字符串?

HuntsBot 2023-04-11 原文

问题描述:

如果您有一个 java.io.InputStream 对象,您应该如何处理该对象并生成一个 String?

假设我有一个包含文本数据的 InputStream,并且我想将其转换为 String,例如,我可以将其写入日志文件。

获取 InputStream 并将其转换为 String 的最简单方法是什么?

public String convertStreamToString(InputStream is) {
    // ???
}

解决方案1:

一个优秀的自由职业者,应该有对需求敏感和精准需求捕获的能力,而huntsbot.com提供了这个机会

总结其他答案我发现了 11 种主要方法(见下文)。我写了一些性能测试(见下面的结果):

将 InputStream 转换为字符串的方法:

使用 IOUtils.toString (Apache Utils) 字符串结果 = IOUtils.toString(inputStream, StandardCharsets.UTF_8);使用 CharStreams (Guava) String result = CharStreams.toString(new InputStreamReader( inputStream, Charsets.UTF_8));使用 Scanner (JDK) Scanner s = new Scanner(inputStream).useDelimiter(“\A”);字符串结果 = s.hasNext() ? s.next() : “”;使用流 API (Java 8)。警告:此解决方案将不同的换行符(如 \r\n)转换为 \n。字符串结果 = new BufferedReader(new InputStreamReader(inputStream)) .lines().collect(Collectors.joining(“\n”));使用并行流 API (Java 8)。警告:此解决方案将不同的换行符(如 \r\n)转换为 \n。字符串结果 = new BufferedReader(new InputStreamReader(inputStream)) .lines().parallel().collect(Collectors.joining(“\n”));使用 InputStreamReader 和 StringBuilder (JDK) int bufferSize = 1024;字符 [] 缓冲区 = 新字符 [缓冲区大小]; StringBuilder out = new StringBuilder(); Reader in = new InputStreamReader(stream, StandardCharsets.UTF_8); for (int numRead; (numRead = in.read(buffer, 0, buffer.length)) > 0; ) { out.append(buffer, 0, numRead); } 返回 out.toString();使用 StringWriter 和 IOUtils.copy (Apache Commons) StringWriter writer = new StringWriter(); IOUtils.copy(inputStream, writer, “UTF-8”);返回 writer.toString();使用 ByteArrayOutputStream 和 inputStream.read (JDK) ByteArrayOutputStream 结果 = new ByteArrayOutputStream();字节[]缓冲区=新字节[1024]; for (int length; (length = inputStream.read(buffer)) != -1; ) { result.write(buffer, 0, length); } // StandardCharsets.UTF_8.name() > JDK 7 return result.toString(“UTF-8”);使用 BufferedReader (JDK)。警告:此解决方案将不同的换行符(如 \n\r)转换为 line.separator 系统属性(例如,在 Windows 中为“\r\n”)。 String newLine = System.getProperty(“line.separator”); BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream)); StringBuilder 结果 = new StringBuilder(); for (String line; (line = reader.readLine()) != null; ) { if (result.length() > 0) { result.append(newLine); } result.append(line); } 返回结果.toString();使用 BufferedInputStream 和 ByteArrayOutputStream (JDK) BufferedInputStream bis = new BufferedInputStream(inputStream); ByteArrayOutputStream buf = new ByteArrayOutputStream(); for (int result = bis.read(); result != -1; result = bis.read()) { buf.write((byte) result); } // StandardCharsets.UTF_8.name() > JDK 7 return buf.toString(“UTF-8”);使用 inputStream.read() 和 StringBuilder (JDK)。警告:此解决方案存在 Unicode 问题,例如俄语文本(仅适用于非 Unicode 文本) StringBuilder sb = new StringBuilder(); for (int ch; (ch = inputStream.read()) != -1; ) { sb.append((char) ch); } 返回 sb.toString();

警告:

解决方案 4、5 和 9 将不同的换行符转换为一个。解决方案 11 无法正确处理 Unicode 文本

性能测试

小 String(长度 = 175)、github 中的 url(模式 = 平均时间,系统 = Linux,分数 1,343 最好)的性能测试:

              Benchmark                         Mode  Cnt   Score   Error  Units
 8. ByteArrayOutputStream and read (JDK)        avgt   10   1,343 ± 0,028  us/op
 6. InputStreamReader and StringBuilder (JDK)   avgt   10   6,980 ± 0,404  us/op
10. BufferedInputStream, ByteArrayOutputStream  avgt   10   7,437 ± 0,735  us/op
11. InputStream.read() and StringBuilder (JDK)  avgt   10   8,977 ± 0,328  us/op
 7. StringWriter and IOUtils.copy (Apache)      avgt   10  10,613 ± 0,599  us/op
 1. IOUtils.toString (Apache Utils)             avgt   10  10,605 ± 0,527  us/op
 3. Scanner (JDK)                               avgt   10  12,083 ± 0,293  us/op
 2. CharStreams (guava)                         avgt   10  12,999 ± 0,514  us/op
 4. Stream Api (Java 8)                         avgt   10  15,811 ± 0,605  us/op
 9. BufferedReader (JDK)                        avgt   10  16,038 ± 0,711  us/op
 5. parallel Stream Api (Java 8)                avgt   10  21,544 ± 0,583  us/op

big String (length = 50100), url in github 的性能测试(mode = Average Time, system = Linux, score 200,715 最好):

               Benchmark                        Mode  Cnt   Score        Error  Units
 8. ByteArrayOutputStream and read (JDK)        avgt   10   200,715 ±   18,103  us/op
 1. IOUtils.toString (Apache Utils)             avgt   10   300,019 ±    8,751  us/op
 6. InputStreamReader and StringBuilder (JDK)   avgt   10   347,616 ±  130,348  us/op
 7. StringWriter and IOUtils.copy (Apache)      avgt   10   352,791 ±  105,337  us/op
 2. CharStreams (guava)                         avgt   10   420,137 ±   59,877  us/op
 9. BufferedReader (JDK)                        avgt   10   632,028 ±   17,002  us/op
 5. parallel Stream Api (Java 8)                avgt   10   662,999 ±   46,199  us/op
 4. Stream Api (Java 8)                         avgt   10   701,269 ±   82,296  us/op
10. BufferedInputStream, ByteArrayOutputStream  avgt   10   740,837 ±    5,613  us/op
 3. Scanner (JDK)                               avgt   10   751,417 ±   62,026  us/op
11. InputStream.read() and StringBuilder (JDK)  avgt   10  2919,350 ± 1101,942  us/op

https://i.stack.imgur.com/AYYhz.png

性能测试(平均时间)取决于 Windows 7 系统中的输入流长度:

 length  182    546     1092    3276    9828    29484   58968

 test8  0.38    0.938   1.868   4.448   13.412  36.459  72.708
 test4  2.362   3.609   5.573   12.769  40.74   81.415  159.864
 test5  3.881   5.075   6.904   14.123  50.258  129.937 166.162
 test9  2.237   3.493   5.422   11.977  45.98   89.336  177.39
 test6  1.261   2.12    4.38    10.698  31.821  86.106  186.636
 test7  1.601   2.391   3.646   8.367   38.196  110.221 211.016
 test1  1.529   2.381   3.527   8.411   40.551  105.16  212.573
 test3  3.035   3.934   8.606   20.858  61.571  118.744 235.428
 test2  3.136   6.238   10.508  33.48   43.532  118.044 239.481
 test10 1.593   4.736   7.527   20.557  59.856  162.907 323.147
 test11 3.913   11.506  23.26   68.644  207.591 600.444 1211.545

不错的作品。在底部提供一个 tl;dr 总结可能很有用,即抛出存在换行/ unicode 问题的解决方案,然后(在剩下的那些中)说有或没有外部库最快的解决方案。

这个答案似乎不完整

我对自发布此答案以来添加的 Java 9 InputStream.transferTo 和 Java 10 Reader.transferTo 解决方案感到好奇,因此我查看了链接代码并为它们添加了基准。我只测试了“大字符串”基准。 InputStream.transferTo 是所有测试过的解决方案中最快的,运行时间是 test8 在我机器上的 60%。 Reader.transferTo 比 test8 慢,但比所有其他测试都快。也就是说,它在 95% 的时间内以 test1 的形式运行,所以这并不是一个显着的改进。

我在对这篇文章的编辑中将所有 while 循环转换为 for 循环,以避免在循环外使用未使用的变量污染命名空间。这是一个适用于大多数 Java 读取器/写入器循环的巧妙技巧。

在 Java 9 中,您可以使用 .readAllBytes 从 InputStream 中获取字节数组。所以“new String(inputStream.readAllBytes())”使用 String 的 byte[] 构造函数工作。

解决方案2:

huntsbot.com聚合了超过10+全球外包任务平台的外包需求,寻找外包任务与机会变的简单与高效。

一个很好的方法是使用 Apache commons IOUtils 将 InputStream 复制到 StringWriter… 类似于

StringWriter writer = new StringWriter();
IOUtils.copy(inputStream, writer, encoding);
String theString = writer.toString();

甚至

// NB: does not close inputStream, you'll have to use try-with-resources for that
String theString = IOUtils.toString(inputStream, encoding); 

或者,如果您不想混合使用 Streams 和 Writer,您可以使用 ByteArrayOutputStream

toString 被弃用了吗?我看到IOUtils.convertStreamToString()

我添加了一个编辑以包含指向实际源代码本身的可搜索链接作为参考。我相信这增加了那些想要了解该命令如何工作的人的答案。

解决方案3:

保持自己快人一步,享受全网独家提供的一站式外包任务、远程工作、创意产品订阅服务–huntsbot.com

这是一种仅使用标准 Java 库的方法(请注意,流未关闭,您的里程可能会有所不同)。

static String convertStreamToString(java.io.InputStream is) {
    java.util.Scanner s = new java.util.Scanner(is).useDelimiter("\\A");
    return s.hasNext() ? s.next() : "";
}

我从 “Stupid Scanner tricks” 文章中学到了这个技巧。它起作用的原因是因为 Scanner 迭代流中的标记,在这种情况下,我们使用“输入边界的开始” (\A) 分隔标记,因此只为流的整个内容提供一个标记。

注意,如果您需要具体说明输入流的编码,您可以向 Scanner 构造函数提供第二个参数,指示要使用的字符集(例如“UTF-8”)。

帽子提示也适用于 Jacob,他曾向我指出上述文章。

与HuntsBot一起,探索全球自由职业机会–huntsbot.com

我们不应该在返回值之前关闭扫描仪吗?

解决方案4:

一个优秀的自由职业者,应该有对需求敏感和精准需求捕获的能力,而huntsbot.com提供了这个机会

Apache Commons 允许:

String myString = IOUtils.toString(myInputStream, "UTF-8");

当然,您可以选择除 UTF-8 之外的其他字符编码。

另请参阅:(documentation)

试图取回 InputStream,但不工作 stackoverflow.com/q/66349701/3425489

解决方案5:

huntsbot.com汇聚了国内外优秀的初创产品创意,可按收入、分类等筛选,希望这些产品与实践经验能给您带来灵感。

考虑到文件 one 应该首先获得一个 java.io.Reader 实例。然后可以读取它并将其添加到 StringBuilder(如果我们不在多个线程中访问它,则不需要 StringBuffer,并且 StringBuilder 更快)。这里的诀窍是我们在块中工作,因此不需要其他缓冲流。块大小被参数化以用于运行时性能优化。

public static String slurp(final InputStream is, final int bufferSize) {
    final char[] buffer = new char[bufferSize];
    final StringBuilder out = new StringBuilder();
    try (Reader in = new InputStreamReader(is, "UTF-8")) {
        for (;;) {
            int rsz = in.read(buffer, 0, buffer.length);
            if (rsz < 0)
                break;
            out.append(buffer, 0, rsz);
        }
    }
    catch (UnsupportedEncodingException ex) {
        /* ... */
    }
    catch (IOException ex) {
        /* ... */
    }
    return out.toString();
}

解决方案6:

huntsbot.com洞察每一个产品背后的需求与收益,从而捕获灵感

利用:

InputStream in = /* Your InputStream */;
StringBuilder sb = new StringBuilder();
BufferedReader br = new BufferedReader(new InputStreamReader(in));
String read;

while ((read=br.readLine()) != null) {
    //System.out.println(read);
    sb.append(read);
}

br.close();
return sb.toString();

readLine() 删除换行符,因此生成的字符串将不包含换行符,除非您在添加到构建器的每一行之间添加换行符。

解决方案7:

huntsbot.com提供全网独家一站式外包任务、远程工作、创意产品分享与订阅服务!

如果您使用的是 Google-Collections/Guava,您可以执行以下操作:

InputStream stream = ...
String content = CharStreams.toString(new InputStreamReader(stream, Charsets.UTF_8));
Closeables.closeQuietly(stream);

请注意,InputStreamReader 的第二个参数(即 Charsets.UTF_8)不是必需的,但如果您知道编码,通常最好指定编码(您应该这样做!)

解决方案8:

huntsbot.com全球7大洲远程工作机会,探索不一样的工作方式

为了完整起见,这里是 Java 9 解决方案:

public static String toString(InputStream input) throws IOException {
    return new String(input.readAllBytes(), StandardCharsets.UTF_8);
}

这使用添加到 Java 9 的 readAllBytes 方法。

我对这个 here 进行了基准测试,发现这是我机器上最快的解决方案,运行时间大约是第二快的基准测试解决方案的 60%。

>此方法阻塞,直到所有剩余字节都被读取并检测到流结束,或者抛出异常。

解决方案9:

huntsbot.com提供全网独家一站式外包任务、远程工作、创意产品分享与订阅服务!

这是最适合 Android 和任何其他 JVM 的纯 Java 解决方案。

这个解决方案运行得非常好…它简单、快速,并且在大小流上都一样! (参见上面的基准。第 8 号)

public String readFullyAsString(InputStream inputStream, String encoding)
        throws IOException {
    return readFully(inputStream).toString(encoding);
}

public byte[] readFullyAsBytes(InputStream inputStream)
        throws IOException {
    return readFully(inputStream).toByteArray();
}

private ByteArrayOutputStream readFully(InputStream inputStream)
        throws IOException {
    ByteArrayOutputStream baos = new ByteArrayOutputStream();
    byte[] buffer = new byte[1024];
    int length = 0;
    while ((length = inputStream.read(buffer)) != -1) {
        baos.write(buffer, 0, length);
    }
    return baos;
}

解决方案10:

huntsbot.com – 高效赚钱,自由工作

利用:

import java.io.BufferedInputStream;
import java.io.ByteArrayOutputStream;
import java.io.InputStream;
import java.io.IOException;

public static String readInputStreamAsString(InputStream in)
    throws IOException {

    BufferedInputStream bis = new BufferedInputStream(in);
    ByteArrayOutputStream buf = new ByteArrayOutputStream();
    int result = bis.read();
    while(result != -1) {
      byte b = (byte)result;
      buf.write(b);
      result = bis.read();
    }
    return buf.toString();
}

解决方案11:

打造属于自己的副业,开启自由职业之旅,从huntsbot.com开始!

这是我经过一些实验后想出的最优雅的纯 Java(无库)解决方案:

public static String fromStream(InputStream in) throws IOException
{
    BufferedReader reader = new BufferedReader(new InputStreamReader(in));
    StringBuilder out = new StringBuilder();
    String newLine = System.getProperty("line.separator");
    String line;
    while ((line = reader.readLine()) != null) {
        out.append(line);
        out.append(newLine);
    }
    return out.toString();
}

原文链接:https://www.huntsbot.com/qa/MQ2J/how-do-i-read-convert-an-inputstream-into-a-string-in-java?lang=zh_CN

huntsbot.com高效搞钱,一站式跟进超10+任务平台外包需求

有关如何在 Java 中将 InputStream 读取/转换为字符串?的更多相关文章

  1. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  2. Ruby 解析字符串 - 2

    我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?

  3. ruby - 如何在 Ruby 中顺序创建 PI - 2

    出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits

  4. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

    我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

  5. ruby-on-rails - unicode 字符串的长度 - 2

    在我的Rails(2.3,Ruby1.8.7)应用程序中,我需要将字符串截断到一定长度。该字符串是unicode,在控制台中运行测试时,例如'א'.length,我意识到返回了双倍长度。我想要一个与编码无关的长度,以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料,但仍然有些一头雾水。应该如何解决这个问题? 最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)

  6. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  7. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  8. ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2

    大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje

  9. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  10. ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串? - 2

    我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123

随机推荐