草庐IT

java - 从文件中获取一个重复的字段而不需要加载整个文件

coder 2024-02-25 原文

假设我有一个像这样结构化(简化)的 .proto

Message DataItem {
  required string name = 1;
  required int32 value = 2;
}

Message DataItemStream {
  repeated DataItem items = 1;
}

服务器将生成DataItemStream 并将其写入磁盘。我们加载此文件,一切顺利,没有问题。

这对我们来说效果很好,但我们的客户群在增长,因此生成文件流的软件的使用也在增长。

问题出现了,因为重复的 items 字段可以有成千上万个项目,但我们只对其中的一个子集感兴趣。我们已经挖掘了一点点,只看到了遵循谷歌流媒体的解决方案 advice ( to add a size prefix to our stored DataItems 然后单独解析每条消息或 to use a CodedInputStream/CodedOutputStream 或编码二进制有线格式(base64)并用换行符分隔,然后我们就可以很容易地得到我们的子集重新感兴趣。

这些中的任何一个都适用于我们,但需要对生产代码进行一些更改以更改文件的保存方式(基于服务器的代码很长时间没有更改,并且被他们的管理层认为几乎不可触及(在他们的请记住,如果它没有损坏,请不要修复它)...)

我们已经为服务器重新创建了以不同方式传输消息的模块,但是从那些维护者那里收到了关于插入我们的更改的抨击。由于我们可以完全控制代码的开发周期,因此(在政治上)我们可以更轻松地根据需要更改代码。

有没有办法仍然使用这个原始的消息流,但智能地只选择要加载的消息子集? (如果重要的话,我们真的不在乎我们必须使用什么语言工作,我们在 c++、python、java 和 .NET 方面有经验(按经验顺序排列))

最佳答案

我会将此视为一个数据库问题:您有一个文件表示一个表 (DataItemStream),其中包含单独的记录 (DataItems)。您似乎想要从表中选取连续范围的 DataItems。这意味着 DataItemStream 中 DataItem 的顺序很重要,实际上编码了一个隐藏的主键——“数组”索引,也就是 DataItemStream 中 DataItem 的行号。

在大多数数据库中,在数组数据结构中,每一行(或数组项)占据相同的空间量,因此访问第 n 项很容易。然而,放置在DataItemStream中的DataItem是可变长度的,所以这种简单的方法是行不通的。

使用数据库比喻,另一种有效查找记录的方法是使用索引 - 本质上是另一个表,但包含指向主要数据结构的指针要小得多。索引通常被构造为(PK,指针)元组表。在这种情况下,您可能有一个索引文件,它本质上是一个内存映射的 int32 数组。索引中的每个值都指向该 DataItem 记录开始的数据文件中的字节偏移量。

例如,如果数据文件的长度为 1m 条记录,则您的索引将为 4MB(1m 条记录 * len(int32) = 1m * 4 字节)。如果您需要扫描记录 777777 到 888888 的数据文件,您:

  1. 读取索引以获取 DataItemStream 中感兴趣的字节范围。请注意,查找操作确实非常快:
    1. 打开索引文件
    2. 查找(例如在 Java RandomAccessFile.seek() 中,在 Python fileObject.seek() 中)起始索引 int32 (777777*4) 并读取它。这是起始字节偏移量
    3. 寻找结束索引 int32 (888888*4) 并读取它。这是结束字节偏移量
    4. 关闭索引文件
  2. 读取索引指定的DataItemStream文件的字节范围:
    1. 打开 DataItemStream 文件
    2. 在文件中寻找起始字节偏移量
    3. 读取流直到结束字节偏移(记得减1)
    4. 关闭 DataItemStream 文件

2.about 的一种略有不同的方法可能是首先为指定的字节范围创建一个新文件。该文件现在那些感兴趣的记录。

索引文件是如何创建的?

EDIT: description of the PB format: 实际索引文件的构造可以通过简单地传递数据文件来生成。所有字段都以一个字节开头,message type后面是段。以“特殊”方式编码,使用每个字节的 MSB 作为连续信号,如 here 所述.这意味着几乎可以避免数据格式的所有复杂性,因此索引器可以非常简单。

您可以将索引文件视为缓存 - 您的代码库可以使用最新的索引(如果存在),或者如果它丢失则自动创建它。

这种方法允许索引感知代码高效地执行,并且不会更改任何遗留程序的数据格式。

关于java - 从文件中获取一个重复的字段而不需要加载整个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13745168/

有关java - 从文件中获取一个重复的字段而不需要加载整个文件的更多相关文章

  1. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  2. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  3. ruby-on-rails - 渲染另一个 Controller 的 View - 2

    我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>

  4. ruby - 如何在续集中重新加载表模式? - 2

    鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende

  5. ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2

    我有一个表单,其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在?solve_problem_pathdo|f|%>... 最佳答案 创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss

  6. ruby-on-rails - form_for 中不在模型中的自定义字段 - 2

    我想向我的Controller传递一个参数,它是一个简单的复选框,但我不知道如何在模型的form_for中引入它,这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框,但我该怎么做,模型中没有一个对象,而是一个要检查的对象,以便在Controller中创建一个ifelse,如果没有检查,请帮助我,非常感谢,谢谢

  7. ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象,为什么它会起作用? - 2

    如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象

  8. ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串? - 2

    关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?

  9. java - 等价于 Java 中的 Ruby Hash - 2

    我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/

  10. ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2

    我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("

随机推荐