草庐IT

java - 在 Java 中保存大量数据列表的最佳实践

coder 2024-03-07 原文

我正在用 Java 编写一个小型系统,我在其中从文本文件中提取 n-gram 特征,之后需要执行特征选择过程以选择最具鉴别力的特征。

单个文件的特征提取过程返回一个 map ,其中包含每个唯一特征及其在文件中的出现。我将所有文件的 map (Map)合并成一个 map ,其中包含从所有文件中提取的所有独特特征的文档频率(DF)。统一的 map 可以包含超过 10,000,000 个条目。

目前特征提取过程运行良好,我想执行特征选择,我需要在其中实现信息增益或增益比。我必须先对 Map 进行排序,执行计算并保存结果,以便最终得到一个列表(对于每个特征,它的特征选择分数)

我的问题是: 容纳如此大量的数据(~10M)并执行计算的最佳实践和最佳数据结构是什么?

最佳答案

这是一个非常宽泛的问题,所以答案也会很宽泛。解决方案取决于(至少)这三件事:

  1. 条目的大小

存储 10,000,000 个整数将需要大约 40MiB 的内存,而存储 10,000,000 x 1KiB 的记录将需要超过 9GiB。这是两个不同的问题。将一千万个整数存储在任何现有 Java 集合的内存中是微不足道的,而在内存中保留 9GiB 将迫使您调整和调整 Java 堆和垃圾收集器。如果条目更大,比如 1MiB,那么您可以完全忘记内存存储。相反,您需要专注于寻找良好的磁盘支持数据结构,也许是数据库。

  1. 您使用的硬件

在具有 8 GiB 内存的机器上存储一千万条 1KiB 记录与将它们存储在具有 128GiB 内存的服务器上是不同的。前者几乎不可能完成的事情对后者来说微不足道。

  1. 您想进行的计算类型

您提到了排序,所以像 TreeMap 这样的事情或者也许 PriorityQueue浮现在脑海中。但这是最密集的计算吗?您用来对它们进行排序的键是什么?您是否计划根据其他非关键属性定位(获取)实体?如果是这样,则需要单独规划。否则,您需要遍历所有一千万个条目。

您的计算是在单线程还是多线程中运行?如果您可能同时修改数据,则需要单独的解决方案。 TreeMap 和 PriorityQueue 等数据结构必须被锁定或替换为并发结构,例如 ConcurrentLinkedHashMapConcurrentSkipListMap .

关于java - 在 Java 中保存大量数据列表的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27943897/

有关java - 在 Java 中保存大量数据列表的最佳实践的更多相关文章

  1. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  2. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  3. ruby - RVM 使用列表[0] - 2

    是否有类似“RVMuse1”或“RVMuselist[0]”之类的内容而不是键入整个版本号。在任何时候,我们都会看到一个可能包含5个或更多ruby的列表,我们可以轻松地键入一个数字而不是X.X.X。这也有助于rvmgemset。 最佳答案 这在RVM2.0中是可能的=>https://docs.google.com/document/d/1xW9GeEpLOWPcddDg_hOPvK4oeLxJmU3Q5FiCNT7nTAc/edit?usp=sharing-知道链接的任何人都可以发表评论

  4. java - 等价于 Java 中的 Ruby Hash - 2

    我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/

  5. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  6. java - 从 JRuby 调用 Java 类的问题 - 2

    我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www

  7. java - 我的模型类或其他类中应该有逻辑吗 - 2

    我只想对我一直在思考的这个问题有其他意见,例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我

  8. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  9. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  10. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

随机推荐