Easy Sql让ETL开发变轻松

李春辉 2023-03-28 原文

原创公众号文章《Easy Sql让ETL开发变轻松》- 作者：阳沁珂

ETL任务的搭建是数据型项目的必要，但是在搭建ETL任务时，你是否有过这样的烦恼？

多种数据库平台连接，使得连接的管理变得混乱，更改数据库连接方式的时候需要改大量散步各处的代码。
SQL的代码整洁度不够，在不同的SQL文件中存在大量的重复语句。
SQL能做的处理有限，大部分时候对于数据还需要衔接额外的处理，使得整个ETL流程不清晰。
没有log和debug的工具

公司自主研发的开源代码Easy SQL (https://github.com/easysql/easy_sql)使用python搭建了一套工具系统，使得上述问题能被轻松解决。下面就这几个方面讲解一下如何使用Easy SQL来加速ETL的搭建与管理。

一键换数据库

在设计上，虽然可扩展的数据库后端不同，但是Easy SQL的process模块是通用的。这就意味着，只需将所需的数据库后端引擎传入process模块，即可完成数据库后端的转换。如下代码所示，对于sparkSQL的后端，只需依据spark session创建spark backend对象，而对于使用SQLAlchemy直接连接的关系型数据库，则创建RDB Backend对象。目前支持的后端引擎有：SparkSQL，Clickhouse，Postgre，Bigquery。通过这样的解耦，可以实现一键切换数据库连接，其执行逻辑由processor封装好再进行调用。

Template组装SQL

在项目中，我们经常强调代码的整洁性，但是容易忽略ETL的执行SQL也是代码的一部分，SQL的整洁性低会给项目带来不必要的混乱。举个例子，许多项目需要被执行的SQL文件单独放在一个文件里，并且不同的SQL中可能存在大量重复的语句，比如where的过滤条件，或者join的对应约束。虽然这样的SQL文件简单直接明了，但是设想一个场景如果我们的数据库表列名改变，导致所有相关的join与where都需要被修改。这时，我们并不知道在大量的SQL文件中有哪些文件是调用了修改列的，甚至需要开发人员一个一个文件查看排查，这无疑会使得代码变得沉重难以修改并且降低项目的开发速度。当然这个问题已经被许多的开发人员发现，他们有在实践中自定义template模块来加强对SQL的管理。但是不同项目的管理方法并没有统一，这又增加了on boarding成员的学习成本。因为这时读懂一个ETL，不仅仅需要懂SQL的调用，还需要了解单属于这一个项目的template系统是怎样运作来管理和生成执行语句的。

我推荐使用Easy SQL中的template功能，因为他通过简易的语句快速组装SQL。在Easy SQL中，一份SQL执行文件，不是单独的一个SQL语句，而是一整个的执行逻辑。其中语句的功能除了一般的增删改查，还有新加入声明变量，声明模版等功能，其中每个语句的作用，由他所在行上方的target定义。一个应用场景如下方的例子中，需要将两张表的部分列数据使用union 的方法select，如果每一个select都写出需要的列名会使得代码变得冗余。但是在Easy SQL里，我们将所需要的列名放入了名叫dim_cols的template中，在之后的语句中使用@{dim_cols}代替了列名。通过对template的调用，大幅度提高代码整洁性，减少不必要的重复语句。

除了声明template以外，Easy SQL的变量声明功能也使得ETL变得更加灵活易用。一个应用场景，假设我们有一张规则表记录阈值，一张数据表。并且情境下不允许我们使用join，要知道有哪些数据超过了阈值，我们需要先从规则表得到阈值再到数据表中做过滤。一般需要两个SQL，并且使用第一个SQL的执行结果来动态生成第二个SQL的执行过滤条件。在这个时候，整个执行过程由于需要额外的处理来生成下一个执行语句而割裂开了。在代码中，整体的可读性会大幅降低，因为开发人员需要到多个文件中去理解生成的过程。而Easy SQL的动态组建功能，将所需的信息拼接在一个文件之中。当一个执行语句的目标被定义为variables，该语句的执行结果会变成变量名与变量值储存到内存之中。其中变量名是由select as { }预设的，变量值由执行结果产生。在后续的SQL的任意位置中使用这个变量名，这个变量名会被替代为变量值之后再被执行。对比之下，在使用了easy sql时，执行过程不再是被割裂的，在一个文件中开发人员就能清晰得了解到整个语句的生成逻辑。

Function流程衔接

在上面所描述的情形中，我们将一种拼接的需求衔接了起来，使得代码变得整体化。但是通常还有另外一种情况需要将执行割裂开来，那就是需要SQL语句以外的python模块的一些方法之后再继续SQL逻辑。在这里可以使用Easy SQL，其function功能十分强大，使用者自定义任意的python函数，将其注册在processor之中后，既可以在SQL中调用。举个例子，我们自己定义一个简单的相加的方法在easy SQL中直接使用（如下方左图）。这种function的调用还能用于控制流程（如下方右图），在SQL的处理当中穿插python的处理模块。其优势是让我们的流程在一个文件中一目了然。

除此之外，Easy SQL的功能还可以在SQL语句较为复杂的时候，使用function来生成执行语句。比如，在select的时候，我们想要过滤掉不需要的列名，留下剩余的列。在写SQL的时候我们并不想明确写出列名，而是通过function的调用来帮助我们生成需要的语句。比如下面的例子中的function，就是通过在被调用时执行select语句查找table的所有列，并且排除掉不需要的列，返回正确的select中的语句。这种方法可以大幅提高我们的SQL整洁性，不再需要枚举所有的需要的列名，而且避免因为table的列名改变而需要改变大量的select语句。

Log 与debug的工具

日志的记录是项目健康必不可少的清单，一份好的日志帮助开发人员在遇错的时候准确得把握原因。但是通常的SQL执行缺少统一的日志，往往都是在代码中生成日志信息。但是这样的日志处理也是一种割裂，因为开发人员只看SQL文件并不能知道有哪些信息被log记录了，而是需要翻看代码去了解。Easy SQL提供的log工具能在SQL文件中随时指定需要被log的信息。假设一个情景，我们需要检查order表的数据量是否达标，并且将信息放入到log系统之中。easy sql通过封装到模块，我们可以直接用target=log来控制需要被log出的信息，其中log之后的名字是会被一起log出的message用于定位。除了信息的log之外，还可以使用target=check来实现一个核查的功能。这样的设计，让log与debug的指定信息与SQL位于同一份文件之中，整个代码更加得易读易懂。

总结

Easy SQL致力于将ETL变得更加容易轻松易于管理，使得开发人员能将更多的时间用于产品的研发之中。目前项目刚刚开源，还在继续迭代加入新的功能，近期正在结合SQL Fluff工具实现自动排查SQL代码整洁性。

有关Easy Sql让ETL开发变轻松的更多相关文章

ruby - 使用 C 扩展开发 rubygem 时，如何使用 Rspec 在本地进行测试？ - 2
我正在编写一个包含C扩展的gem。通常当我写一个gem时，我会遵循TDD的过程，我会写一个失败的规范，然后处理代码直到它通过，等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb，如何运行我的规范并仍然加载我的C扩展？当我更改C代码时，我需要采取哪些步骤来重新编译代码？这可能是个愚蠢的问题，但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时，我确实得到了一个Makefile(在整个项目的根目录中)，然后当
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
ruby - 是否可以覆盖 gemfile 进行本地开发？ - 2
我们的git存储库中目前有一个Gemfile。但是，有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它，我必须将它添加到我们的Gemfile中，但每次我checkout到我们的master/dev主分支时，由于与跟踪的gemfile冲突，我必须删除它。我想要的是类似Gemfile.local的东西，它将继承从Gemfile导入的gems，但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗？最佳答案设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI
ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2
我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器，但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型，并且只返回text/plain，如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
屏幕录制为什么没声音？检查这2项，轻松解决 - 2
相信很多人在录制视频的时候都会遇到各种各样的问题，比如录制的视频没有声音。屏幕录制为什么没声音？今天小编就和大家分享一下如何录制音画同步视频的具体操作方法。如果你有录制的视频没有声音，你可以试试这个方法。一、检查是否打开电脑系统声音相信很多小伙伴在录制视频后会发现录制的视频没有声音，屏幕录制为什么没声音？如果当时没有打开音频录制，则录制好的视频是没有声音的。因此，建议在录制前进行检查。屏幕上没有声音，很可能是因为你的电脑系统的声音被禁止了。您只需打开电脑系统的声音，即可录制音频和图画同步视频。操作方法：步骤1：点击电脑屏幕右下侧的“小喇叭”图案，在上方的选项中，选择“声音”。步骤2：在“声
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
微信小程序开发入门与实战（Behaviors使用） - 2
@作者:SYFStrive @博客首页:HomePage📜：微信小程序📌：个人社区（欢迎大佬们加入）👉：社区链接🔗📌：觉得文章不错可以点点关注👉：专栏连接🔗💃：感谢支持,学累了可以先看小段由小胖给大家带来的街舞👉微信小程序（🔥）目录自定义组件-behaviors 1、什么是behaviors 2、behaviors的工作方式 3、创建behavior 4、导入并使用behavior 5、behavior中所有可用的节点 6、同名字段的覆盖和组合规则总结最后自定义组件-behaviors 1、什么是behaviorsbehaviors是小程序中，用于实现
ruby-on-rails - environment.rb 中设置的常量在开发模式中消失 - 2
了解Rails缓存如何工作的人可以真正帮助我。这是嵌套在Rails::Initializer.runblock中的代码:config.after_initializedoSomeClass.const_set'SOME_CONST','SOME_VAL'end现在，如果我运行script/server并发出请求，一切都很好。然而，在我的Rails应用程序的第二个请求中，一切都因单元化常量错误而变得糟糕。在生产模式下，我可以成功发出第二个请求，这意味着常量仍然存在。我已通过将以上内容更改为以下内容来解决问题:config.after_initializedorequire'some_cl