最近搞了一个好玩的项目,客户的数据库从SQL Server 2000迁移到 Azure SQL 。数据库数据迁移并不是难事,关键客户环境好玩的是使用了50多个DTS包,DTS包是比较古老的产品。很多人估计都没见过了,DTS其实是 SSIS的前生,DTS功能就是实现ETL的过程。
客户的50多个包实现各种数据的复制、转换和集成。
Azure 数据工厂是 Azure 的云 ETL 服务,用于横向扩展无服务器数据集成和数据转换。 它提供了无代码的 UI,以用于直观创作和集中式监视与管理。 还可以将现有 SSIS 包直接迁移到 Azure,并在 ADF 中运行它们(二者完全兼容)。 SSIS Integration Runtime 提供完全托管的服务,因此无需担心基础结构管理。
一直以为Azure Data Factory 没啥好玩的,直到最近搞这个项目,才发现 Azure Data Factory 也还是有点意思。
但是 Azure Data Factory 与想象中也有点不一样,从实战中有点感悟,总结总结。
目前的Azure Data Factory 有几大组件:
管道
活动
数据集
链接服务
数据流
集成运行时
这几大组件中最难搞的是 :集成运行时 ,其他理解起来都还是很顺,一会详解
| 项目 | 说明 |
|---|---|
| 管道 | 管道是执行任务单元的活动的逻辑分组。 管道中的活动可以共同执行一项任务; 管道理解为了实现一个功能或者一项活动的分组。每个管道可以包含无数的活动,每个活动一般具备流程关系,一步步进行。 |
| 活动 | 活动是具体的每个步骤,某个需要进行的功能的实现。 |
| 数据集 | 数据集代表数据存储中的数据结构,这些结构直接指向需要在活动中使用的数据,或者将其作为输入或输出引用。 |
| 链接服务 | 链接服务十分类似于连接字符串,用于定义数据工厂连接到外部资源时所需的连接信息。 不妨这样考虑:链接服务定义到数据源的连接,而数据集则代表数据的结构。 例如,Azure 存储链接服务指定连接到 Azure 存储帐户所需的连接字符串。 另外,Azure Blob 数据集指定 Blob 容器以及包含数据的文件夹。 |
| 集成运行时 | 集成运行时(IR)是由 数据工厂 使用的计算基础结构,用来跨不同网络环境提供数据集成功能。 Azure Integration Runtime 可用于通过可公开访问终结点连接到公用网络中的数据存储和计算服务。 对专用网络/本地网络使用自承载集成运行时。 |
这次项目中是迁移SQL Server2000 的DTS 。
第一步:是将SQL 2000数据库 迁移到 SQL 2008 R2
第二步:然后迁移到了Azure SQL Database
第三步:将SQL 2000 的DTS迁移到 Azure Data Factory
由于 SQL 2000的DTS 是很古老的东西,然后又很复杂,比如可能是这样的

这个包共有8个步骤,而最复杂的包有17个步骤,由于DTS是可以嵌套包,也就是17个步骤里面有很多步骤嵌套包,也就是说步骤总部加起来就会有至少70~80个步骤。
使用Azure Data Factory 就相当于把每个步骤在Azure Data Factory上重新编写。
Azure Data Factory的关键配置有:
链接服务
集成运行时

新建链接服务:
需要选择需要链接的服务类型

选择类型后,在配置界面需要:配置集成运行时,这里才是最困难的。


点击新建集成运行时,有几种可选,
大分类
1、Azure ,自承载

大概我理解在使用中,链接Azure 云使用 Azure集成运行时,而内网和专用网络 需要使用 自承载运行时。选择自承载运行时,大坑来了。。。

需要在本地网络中安装一台服务器来运行集成运行时。惊不惊喜,意不意外。这个鬼东西就相当于一个datagateway。。。前面文档中就没有看到有这样的描述。也就是说本来客户是迁移一个老旧服务器到PaaS的平台,这倒好,还要搭上一台新服务器专门做集成服务。
2、Azure-SSIS
选择 Azure-SSIS,本来另外一种方案是将DTS包转换为SQL 2008R2 SSIS ,然后直接部署到Azure-SSIS运行,到这里发现几个问题
SSIS转换后的包基本不可用,因为链接的对象都变成了Azure SQL,和之前完全不一样。没有办法兼容使用
SSIS的收费确实比较喜人~~

创建好链接服务、集成运行时,就需要创建数据集,从某角度讲,所有数据的迁移和转换等各种过程,都是从一个数据集到另外一个数据集,数据集可以理解为特殊的数据表,可以是实体表、虚拟表、视图,查询等
有了集成服务后、创建链接服务,就可以进行管道创建,在此案例中,可以看到数据集创建了135个,也就是中间进行数据转换使用等过程中使用到了135个数据集。

创建数据集

选择数据集类型

选择相应的连接服务,就可以选择相应的数据库的表,如果需要执行查询,可以随意选择一个数据表,在复制过程中去设置查询语句
新建管道,界面如下:

管道就是由许多的活动组成,在左侧可以看到可以进行的活动。



利用这些活动可以进行相应的数据各种活动。
举个例子:
像这个管道里面,执行了17个活动,包括了很多复制 和很多存储过程的执行。

管道创建好后需要执行,执行办法就是创建触发器。

管道执行过程可以在监视中看到


管道调试过程中也可以看到,需要在管道调试的时候点击详细可以看到运行的详细情况:

Azure Data Factory与DevOps进行集成,也就是编写管道随时可以进行保存,也可以回溯。非常方便。
另外 ADF还有很多功能未曾使用,目前看来功能还是可以,在进行日常的ETL过程是够用的。
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我
如何正确创建Rails迁移,以便将表更改为MySQL中的MyISAM?目前是InnoDB。运行原始执行语句会更改表,但它不会更新db/schema.rb,因此当在测试环境中重新创建表时,它会返回到InnoDB并且我的全文搜索失败。我如何着手更改/添加迁移,以便将现有表修改为MyISAM并更新schema.rb,以便我的数据库和相应的测试数据库得到相应更新? 最佳答案 我没有找到执行此操作的好方法。您可以像有人建议的那样更改您的schema.rb,然后运行:rakedb:schema:load,但是,这将覆盖您的数据。我的做法是(假设
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h