草庐IT

java - 重构大数据对象

coder 2023-08-30 原文

重构大型“仅状态”对象的一些常见策略是什么?

我正在研究一个特定的软实时决策支持系统,该系统对国家空域进行在线建模/模拟。该软件消耗大量实时数据馈送,并每分钟生成一次空域中大量实体的“状态”估计。直到我们遇到当前最低级别的实体,问题才得以顺利解决。

我们的数学模型估计/预测每个实体在过去和 future 几个小时的时间线中超过 50 个参数,大约每分钟一次。目前,这些记录被编码为具有许多字段的单个 Java 类(有些被折叠为 ArrayList )。我们的模型在不断发展,字段之间的依赖关系还不是一成不变的,所以每个实例都在一个复杂的模型中徘徊,随着它的进行积累设置。

目前我们有类似下面的东西,它使用构建器模式方法来构建记录的内容,并强制执行已知的依赖项(作为对程序员错误的检查随着模式的发展。)一旦估计完成,我们使用 .build() 将以下内容转换为不可变的形式类型方法。

final class OneMinuteEstimate {

  enum EstimateState { INFANT, HEADER, INDEPENDENT, ... };
  EstimateState state = EstimateState.INFANT; 

  // "header" stuff
  DateTime estimatedAtTime = null;
  DateTime stamp = null;
  EntityId id = null;

  // independent fields
  int status1 = -1;
  ...

  // dependent/complex fields...
  ... goes on for 40+ more fields... 

  void setHeaderFields(...)
  {
     if (!EstimateState.INFANT.equals(state)) {
        throw new IllegalStateException("Must be in INFANT state to set header");
     }

     ... 
  }

}

一旦完成了大量的这些估计,它们就会被组合成时间线,在其中分析汇总模式/趋势。我们曾考虑使用嵌入式数据库,但一直在努力解决性能问题;我们宁愿在数据建模方面解决这个问题,然后逐步将部分软实时代码移动到嵌入式数据存储中。

一旦完成了“时间敏感”部分,产品就会被刷新到平面文件和数据库中。

问题:
  • 这是一个巨大的类,有太多的领域。
  • 类中编码的行为很少;它主要是数据字段的持有者。
  • 维护build()方法极其繁琐。
  • 仅仅为了确保大量依赖建模组件正确填充数据对象的目的而手动维护“状态机”抽象感觉很笨拙,但随着模型的发展,它为我们节省了很多挫折。
  • 有很多重复,特别是当上述记录聚合成非常相似的“汇总”时,这些“汇总”相当于时间序列中上述结构的滚动总和/平均值或其他统计产品。
  • 虽然一些领域可以聚集在一起,但它们在逻辑上都是彼此“对等的”,我们尝试过的任何故障都会导致行为/逻辑人为地 split ,并且需要间接地达到两个深度。

  • 开箱即用的想法很有趣,但这是我们需要逐步发展的东西。在其他人说出来之前,我要指出的是,如果该模型的数据表示如此难以掌握,人们可能会认为我们的数学模型不够清晰。说得对,我们正在努力,但我认为这是一个有很多贡献者的研发环境的副作用,并且有很多并发假设在起作用。

    (这并不重要,但这是用 Java 实现的。我们使用 HSQLDB 或 Postgres 作为输出产品。我们不使用任何持久性框架,部分原因是不熟悉,部分原因是我们仅使用数据库就存在足够的性能问题单独和手工编码的存储例程......我们对转向额外的抽象持怀疑态度。)

    最佳答案

    我有很多和你一样的问题。

    至少我认为我做到了,听起来我做到了。表示方式不同,但在 10,000 英尺处,听起来几乎相同。一堆离散的、“任意的”变量以及它们之间的一堆临时关系(基本上是业务驱动的),随时可能发生变化。

    您还有另一个问题,您有点提到了,那就是性能要求。听起来更快更好,并且可能会为快速糟糕的解决方案抛出一个缓慢的完美解决方案,仅仅是因为较慢的解决方案无法满足基线性能要求,无论它有多好。

    简单地说,我所做的是为我的系统设计了一个简单的领域特定规则语言。

    DSL 的全部意义在于隐式表达关系并将它们打包成模块。

    非常粗糙、人为的例子:

    D = 7
    C = A + B
    B = A / 5
    A = 10
    RULE 1: IF (C < 10) ALERT "C is less than 10"
    RULE 2: IF (C > 5) ALERT "C is greater than 5"
    RULE 3: IF (D > 10) ALERT "D is greater than 10"
    MODULE 1: RULE 1
    MODULE 2: RULE 3
    MODULE 3: RULE 1, RULE 2
    

    首先,这不代表我的语法。

    但是您可以从模块中看到,这是 3 个简单的规则。

    但关键是,从这里可以明显看出规则 1 依赖于 C,C 依赖于 A 和 B,而 B 依赖于 A。这些关系是隐含的。

    因此,对于该模块,所有这些依赖项都“随之而来”。您可以查看我是否为模块 1 生成了代码,它可能如下所示:
    public void module_1() {
        int a = 10;
        int b = a / 5;
        int c = a + b;
        if (c < 10) {
            alert("C is less than 10");
        }
    }
    

    而如果我创建了模块 2,我将得到的是:
    public void module_2() {
        int d = 7;
        if (d > 10) {
            alert("D is greater than 10.");
        }
    }
    

    在模块 3 中,您会看到“免费”重用:
    public void module_3() {
        int a = 10;
        int b = a / 5;
        int c = a + b;
        if (c < 10) {
            alert("C is less than 10");
        }
        if (c > 5) {
            alert("C is greater than 5");
        }
    }
    

    所以,即使我有一个“汤”的规则,模块也是依赖的根,因此过滤掉它不关心的东西。捕获一个模块,摇动树并保持剩下的东西悬挂。

    我的系统使用 DSL 来生成源代码,但您也可以轻松地让它创建一个小型运行时解释器。

    简单的拓扑排序为我处理了依赖图。

    所以,这样做的好处是,虽然在最终生成的逻辑中不可避免地存在重复,至少在模块之间是这样,但规则库中没有任何重复。作为开发人员/知识 worker ,您维护的是规则库。

    还有一个好处是你可以改变一个方程,而不用太担心副作用。例如,如果我更改 do C = A/2,那么,突然之间,B 完全消失了。但是 IF (C < 10)="">

    使用一些简单的工具,您可以显示整个依赖关系图,您可以找到孤立变量(如 B)等。

    通过生成源代码,它会以您想要的速度运行。

    就我而言,看到规则删除单个变量并看到 500 行源代码从结果模块中消失是很有趣的。这是 500 行,我不必在维护和开发过程中手动爬行和删除。我所要做的就是改变我的规则库中的一个规则,让“魔法”发生。

    我什至能够做一些简单的窥视孔优化并消除变量。

    这并不难做到。您的规则语言可以是 XML,也可以是简单的表达式解析器。如果你不想的话,没有理由去全船 Yacc 或 ANTLR。我会为 S-Expressions 添加一个插件,不需要语法,脑死解析。

    实际上,电子表格也是一个很好的输入工具。只是在格式上严格。在 SVN 中合并有点糟糕(所以,不要这样做),但最终用户喜欢它。

    您很可能能够摆脱基于实际规则的系统。我的系统在运行时不是动态的,也不需要复杂的目标搜索和推理,所以我不需要这样一个系统的开销。但是,如果有一个开箱即用的功能,那么快乐的一天。

    哦,还有一个实现说明,对于那些不相信在 Java 方法中可以达到 64K 代码限制的人,我可以向你保证它可以做到:)。

    关于java - 重构大数据对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5489081/

    有关java - 重构大数据对象的更多相关文章

    1. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

      总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

    2. ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2

      在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev

    3. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

      我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

    4. ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2

      我有一个表单,其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在?solve_problem_pathdo|f|%>... 最佳答案 创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss

    5. Ruby 写入和读取对象到文件 - 2

      好的,所以我的目标是轻松地将一些数据保存到磁盘以备后用。您如何简单地写入然后读取一个对象?所以如果我有一个简单的类classCattr_accessor:a,:bdefinitialize(a,b)@a,@b=a,bendend所以如果我从中非常快地制作一个objobj=C.new("foo","bar")#justgaveitsomerandomvalues然后我可以把它变成一个kindaidstring=obj.to_s#whichreturns""我终于可以将此字符串打印到文件或其他内容中。我的问题是,我该如何再次将这个id变回一个对象?我知道我可以自己挑选信息并制作一个接受该信

    6. ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象,为什么它会起作用? - 2

      如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象

    7. ruby-on-rails - 未在 Ruby 中初始化的对象 - 2

      我在Rails工作并有以下类(class):classPlayer当我运行时bundleexecrailsconsole然后尝试:a=Player.new("me",5.0,"UCLA")我回来了:=>#我不知道为什么Player对象不会在这里初始化。关于可能导致此问题的操作/解释的任何建议?谢谢,马里奥格 最佳答案 havenoideawhythePlayerobjectwouldn'tbeinitializedhere它没有初始化很简单,因为你还没有初始化它!您已经覆盖了ActiveRecord::Base初始化方法,但您没有调

    8. java - 等价于 Java 中的 Ruby Hash - 2

      我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/

    9. ruby - 如何在 Rails 4 中使用表单对象之前的验证回调? - 2

      我有一个服务模型/表及其注册表。在表单中,我几乎拥有服务的所有字段,但我想在验证服务对象之前自动设置其中一些值。示例:--服务Controller#创建Action:defcreate@service=Service.new@service_form=ServiceFormObject.new(@service)@service_form.validate(params[:service_form_object])and@service_form.saverespond_with(@service_form,location:admin_services_path)end在验证@ser

    10. ruby - Ruby 有 `Pair` 数据类型吗? - 2

      有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

    随机推荐