生产环境的数据表变更很麻烦？那这个功能你应该用的上

露亚 2023-03-28 原文

离线开发是大数据平台的基础模块，提供大规模数据存储与计算能力，帮助数据开发人员完成数据加工工作，例如将数据从源头表加工成明细表，再加工成汇总表等。可选择搭载其它大数据产品，实现数据集成、数据研发、数据治理、数据服务等功能，灵活满足客户的各类场景。

1、实际场景

在数据开发中，我们经常会碰到要对一些生产环境的表进行一些变更，包括增加字段等操作，但是生产环境的表又不能随意变更，因为往往这些表格存在复杂的上下游关系，所以一般都会需要经过测试，通过测试验证的代码才能提交到线上。

例如，当前线上调度任务中运行着如下的代码，代码中的表intern_new.ods_user_info被下游所使用，代码示例如下：


insert overwrite table intern_new.dim_user_info_p 
partition (ds='2021-07-25') 
select id as user_id, 
name as user_name, 
province, 
age  
from intern_new.ods_user_info 
where ds='2021-07-25';

此时需要对该表进行逻辑修改或增加字段等操作，通常来说会有两种方式进行线上表的修改：

第一种，开发人员选择新建一个临时表，并复制出现有代码，先进行测试验证。当验证通过时，再将该表更新，并更新代码，然后将任务提交上线。
第二种，开发人员选择直接修改该表，并修改原有代码，修改完成后，将任务提交上线。

对于上述两种方法，第一种方法更可靠，能保证所有操作不影响线上数据，也不影响下游，但是会多一些额外的工作；第二种方法可以节约额外的创建临时表，以及代码反复拷贝修改的时间，但是特别容易出纰漏，影响线上数据。

为了更好解决上述问题，数开平台支持数据测试功能。数据测试功能通过引入“${db}”占位符，来解决db自动替换的问题，能够控制同一份代码根据运行环境不同，自动进行部分参数替换，实现操作离线表或测试表的功能，以及操作默认HDFS文件或测试HDFS集群文件的功能。当前可生效在离线开发和自助分析两个子产品中，解决了数据开发过程中的线上数据和开发数据隔离问题。

2、实践内容

假设现在有一张dwd表为”gl_dwd.ods_user_info“，该表是由“gl_ods_user_info”任务每天下午15:27:00产出，需要将这张表加工为dim维表。

涉及的产品模块：离线开发、自助分析

数据开发的流程：

第一步：通过自助分析创建测试表

首先我们需要通过自助分析，在gl_dwd_dev库中建一张测试用的dim维表，dim维表的表结构：

字段	字段类型	字段描述
user_id	string	用户id
user_name	string	用户姓名
province	string	省份
age	int	年龄

dim维表的建表语句示例：


CREATE TABLE gl_dwd_dev.gly_dim_user_info_p (
    user_id STRING COMMENT '用户id',
    user_name STRING COMMENT '用户姓名',
    province STRING COMMENT '省份',
    age INT COMMENT '年龄') 
PARTITIONED BY (ds STRING COMMENT '时间分区') 
STORED AS PARQUET;

操作效果页面如下，点击运行：

看到“运行成功”的提示，则说明测试库中的dim维表已经成功创建～

第二步：通过离线开发创建任务

我们通过离线开发创建任务，使得ods表的数据能够写入dim维表。

先新建一个任务，然后在画布中拖入SQL节点，进入SQL编辑页面后输入下方代码，将gl_dwd.ods_user_info表的数据写入gl_dwd_dev.gly_dim_user_info_p这张表中：

然后通过在开发模式下运行节点，若运行结果为成功，则表示代码能够正常执行，代码验证通过以后，我们可以去自助分析对数据进行验证。

通过select语句，检查dim表中是否确实有了新的数据，select语句示例如下：

SELECT * from gl_dwd_dev.gly_dim_user_info_p where ds='2022-07-10';

点击运行后，运行成功，可在运行结果中查看数据，一共有200条记录，说明数据正确。

至此，我们就成功地通过离线开发，创建了一个开发任务，并且利用测试模式，完成了代码和表结构的验证！下一步，就可以将通过测试的测试库的表克隆到离线库，并将任务提交上线，让离线库中的我们真正的生产表也能有产出的数据。

第三步：通过表克隆将测试完成的表结构克隆到离线库中

仍然在离线开发，点击页面左上角的表克隆，选择待克隆的库表，以及目标库，即gl_dwd_dev库下在上一步骤中新建的dim维表，要将其克隆到离线库gl_dwd中，选择好以后点击克隆检验，检验通过后，即可点击下一步：

系统会自动生成对应表的DDL语句：

点击“执行”，会提示执行成功，即已经在gl_dwd库中生成了与gl_dwd_dev库中dim表结构一致、表名也一致的表。

第四步：将任务提交上线并设置调度

（1）提交上线：

最后，就是将通过测试的任务提交上线并设置调度，让它能够按时产出数据，提供给下游使用。

这里需要注意的是，我们用到的gl_dwd.ods_user_info表是任务gl_ods_user_info的产出表，这张表同时又是任务gly_demo的输入表，这两个任务均为每日调度产出，因此在实际数据加工的过程中，我们就需要保证，在任务gly_demo运行之前，同一调度周期内，任务gl_ods_uers_info必须已经成功产出数据，因此形成任务依赖关系：gl_ods_user_info-----> gly_demo，即任务gly_demo必须依赖任务gl_ods_user_info。

离线开发支持通过自动解析任务的产出表，智能推荐任务依赖。在编辑调度页面，点击智能依赖，系统会自动计算并推荐上游任务及节点，点击确定后，就可以看到页面新增了任务依赖，表示该任务会在其依赖的任务，即gl_ods_user_info任务的实例产出后，才会开始运行。

将任务调度信息设置完成之后，任务就会开始按照计划执行时间生成实例，在实际执行时，就会执行如下代码，将数据插入到“gl_dwd.gly_dim_user_info_p”表中：


insert overwrite table gl_dwd.gly_dim_user_info_p
partition (ds='${azkaban.flow.1.days.ago}')
select id as user_id,
name as user_name,
province,
age 
from gl_dwd.ods_user_info
where ds='${azkaban.flow.1.days.ago}';

（2）验证数据：

最后再来到自助分析，验证我们的数据是否成功地写入了离线库gl_dwd中，即查看gly_dim_user_info_p表中2022-07-10分区是否有完整的200条记录：

运行结果显示，离线库中的dim表已经拥有了正确的数据。至此，我们的离线开发任务就完成了开发、验证与上线的全部过程！

3、总结

以上通过一个简单案例完成了数据测试功能，引入“${db}”占位符，实现了db自动替换，解决了数据开发过程中的线上数据和开发数据隔离问题。

在实际业务场景中，企业出于数据安全考虑往往存在着更复杂的数据存储方式与数据测试规范，大数据开发工作也逐渐往更规范、高效的方向发展，由此也对产品提出了更多的要求和挑战。离线开发产品也在不断吸收来自数据开发工作一线的用户使用场景与姿势，不断努力打磨产品，给用户带去更智能、更高效的大数据数据开发与测试体验。

生产环境 span style font-size 大数据 $数据开发数据存储

有关生产环境的数据表变更很麻烦？那这个功能你应该用的上的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 检查 "command"的输出应该包含 NilClass 的意外崩溃 - 2
为了将Cucumber用于命令行脚本，我按照提供的说明安装了arubagem。它在我的Gemfile中，我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作，我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了，但失败的原因是错误的:@announceScenario:Testingcucumber/ar
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2
我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器，但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型，并且只返回text/plain，如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain
ruby-on-rails - 在 Rails 中调试生产服务器 - 2
您如何在Rails中的实时服务器上进行有效调试，无论是在测试版/生产服务器上？我试过直接在服务器上修改文件，然后重启应用，但是修改好像没有生效，或者需要很长时间(缓存？)我也试过在本地做“脚本/服务器生产”，但是那很慢另一种选择是编码和部署，但效率很低。有人对他们如何有效地做到这一点有任何见解吗？最佳答案我会回答你的问题，即使我不同意这种热修补服务器代码的方式:)首先，你真的确定你已经重启了服务器吗？您可以通过跟踪日志文件来检查它。您更改的代码显示的View可能会被缓存。缓存页面位于tmp/cache文件夹下。您可以尝试手动删除
ruby-on-rails - Cucumber 是否只是 rspec 的包装器以帮助将测试组织成功能？ - 2
只是想确保我理解了事情。据我目前收集到的信息，Cucumber只是一个“包装器”，或者是一种通过将事物分类为功能和步骤来组织测试的好方法，其中实际的单元测试处于步骤阶段。它允许您根据事物的工作方式组织您的测试。对吗？最佳答案有点。它是一种组织测试的方式，但不仅如此。它的行为就像最初的Rails集成测试一样，但更易于使用。这里最大的好处是您的session在整个Scenario中保持透明。关于Cucumber的另一件事是您(应该)从使用您的代码的浏览器或客户端的角度进行测试。如果您愿意，您可以使用步骤来构建对象和设置状态，但通常您
java - 我的模型类或其他类中应该有逻辑吗 - 2
我只想对我一直在思考的这个问题有其他意见，例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD

生产环境的数据表变更很麻烦？那这个功能你应该用的上

1、实际场景​

2、实践内容

有关生产环境的数据表变更很麻烦？那这个功能你应该用的上的更多相关文章

随机推荐

1、实际场景