草庐IT

java - java中存储和访问120,000个单词的最佳方式

coder 2024-03-22 原文

我正在编写一个严格读取文本文件 (.txt) 的 Java 应用程序。这些文件最多可包含 120,000 个单词。

应用程序需要存储所有 +120,000 个单词。它需要将它们命名为 word_1、word_2 等。它还需要访问这些词以对它们执行各种方法。

这些方法都与字符串有关。例如,将调用一个方法来说明 word_80 中有多少个字母。将调用另一个方法来说明 word_2200 中的特定字母是什么。

另外,有些方法会比较两个词。例如,将调用一个方法来比较 word_80 和 word_2200 并需要返回具有更多字母的方法。将调用另一个方法来比较 word_80 和 word_2200,并且需要返回两个单词共享的特定字母。

我的问题是:因为我几乎只使用字符串,所以最好将这些单词存储在一个大的 ArrayList 中吗?几个小的ArrayLists?或者我应该使用许多其他存储可能性中的一种,例如 Vectors、HashSets、LinkedLists?

我的两个主要关注点是 1.) 访问速度,以及 2.) 拥有尽可能多的预构建方法供我使用。

提前感谢您的帮助!!


哇!感谢大家对我的问题提供如此快速的答复。你所有的建议都对我帮助很大。我正在考虑并考虑您反馈中提供的所有选项。

如有不明之处请见谅;让我来回答你的问题:

  1. 问)英语?
    A) 文本文件实际上是用英文写的书。一个词在第二语言中出现的情况很少见——但并非不可能。我会将文本文件中非英语单词的百分比设为 .0001%

  2. 问)作业?
    A) 我现在正在微笑地看着我的问题的措辞。是的,它确实类似于学校作业。但不,这不是家庭作业。

  3. 问)重复?
    A)是的。考虑到连词、冠词等,大概每五个单词一次。

  4. 问)访问?
    A)随机和顺序。一种方法当然有可能随机定位一个词。一个方法也有可能想要在 word_1 和 word_120000 之间依次寻找匹配的词。这就引出了最后一个问题……

  5. 问)遍历整个列表?
    A) 是的。

另外,我计划开发这个程序来对单词执行许多其他方法。我再次为我的模糊道歉。 (细节确实会改变世界,不是吗?)

干杯!

最佳答案

我会把它们存储在一个大的 ArrayList 中,然后担心(可能是不必要的)优化。

我天生懒惰,除非有明确的需要,否则我认为优化不是一个好主意。否则,您只是在浪费本可以更好地用在其他地方的努力。

事实上,如果你可以为你的字数设置一个上限并且你不需要任何花哨的 List 操作,我会选择一个普通的(本地)字符串对象数组,其中一个整数包含 < em="">实际数。这可能比基于类的方法更快。

这使您能够以最快的速度访问各个元素,同时仍然保留执行所有出色的字符串操作的能力。

请注意,我没有针对 ArrayLists 对 native 数组进行基准测试。它们可能和原生数组一样快,所以如果你不像我那样盲目相信我的能力,你应该自己检查一下:-)。

如果它们确实被证明同样快(甚至接近),那么额外的好处(其中一个是可扩展性)可能足以证明它们的使用是合理的。

关于java - java中存储和访问120,000个单词的最佳方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/518936/

有关java - java中存储和访问120,000个单词的最佳方式的更多相关文章

  1. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  2. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  3. ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串? - 2

    我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123

  4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  5. ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2

    我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗? 最佳答案 您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话,Rails使用#method_missing作为属性setter,因此您的模块将优先,阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost),那么您的实例方法需要进入一个特殊的模块:classBlah

  6. ruby - 续集在添加关联时访问many_to_many连接表 - 2

    我正在使用Sequel构建一个愿望list系统。我有一个wishlists和itemstable和一个items_wishlists连接表(该名称是续集选择的名称)。items_wishlists表还有一个用于facebookid的额外列(因此我可以存储opengraph操作),这是一个NOTNULL列。我还有Wishlist和Item具有续集many_to_many关联的模型已建立。Wishlist类也有:selectmany_to_many关联的选项设置为select:[:items.*,:items_wishlists__facebook_action_id].有没有一种方法可以

  7. java - 等价于 Java 中的 Ruby Hash - 2

    我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/

  8. ruby-on-rails - 在 ruby​​ 中使用 gsub 函数替换单词 - 2

    我正在尝试用ruby​​中的gsub函数替换字符串中的某些单词,但有时效果很好,在某些情况下会出现此错误?这种格式有什么问题吗NoMethodError(undefinedmethod`gsub!'fornil:NilClass):模型.rbclassTest"replacethisID1",WAY=>"replacethisID2andID3",DELTA=>"replacethisID4"}end另一个模型.rbclassCheck 最佳答案 啊,我找到了!gsub!是一个非常奇怪的方法。首先,它替换了字符串,所以它实际上修改了

  9. ruby-on-rails - 正确的 Rails 2.1 做事方式 - 2

    question的一些答案关于redirect_to让我想到了其他一些问题。基本上,我正在使用Rails2.1编写博客应用程序。我一直在尝试自己完成大部分工作(因为我对Rails有所了解),但在需要时会引用Internet上的教程和引用资料。我设法让一个简单的博客正常运行,然后我尝试添加评论。靠我自己,我设法让它进入了可以从script/console添加评论的阶段,但我无法让表单正常工作。我遵循的其中一个教程建议在帖子Controller中创建一个“评论”操作,以添加评论。我的问题是:这是“标准”方式吗?我的另一个问题的答案之一似乎暗示应该有一个CommentsController参

  10. java - 从 JRuby 调用 Java 类的问题 - 2

    我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www

随机推荐