一、填空题
1.对原始数据进行有效的__清洗___是大数据分析和应用过程中的关键环节。
2.数据质量的评价指标有准确性 ___完整性_____、简洁性、___适用性_____。
3.数据质量的问题可以分为两类,分别是__基于数据源的脏数据分类___________和基于清洗方式的脏数据分类。
4.____数据清洗__________技术是提高数据质量的有效方法。
5.常见的数据质量问题主要包括缺失值、___重复值_______以及错误值等问题。
二、判断题
1.(×)若直接使用原始数据的话,不会影响数据决策的准确性和效率。
2.(√)从数据清洗方式的设计者角度来看,可以将脏数据分为“独立型脏数据”和“依赖型脏数据”两类。
3.(×)依赖型脏数据主要包括缺失数据和拼写错误数据等脏数据。
4.(×)数据清洗目的是要是将“脏数据”洗掉。
5.(√)基于数据源的脏数据分类的数据质量问题可以分为单数据源问题和多数据源问题。
三、选择题
1.C下列选项中,哪个才是评价数据质量的核心准则?
A.完整性
B.准确性
C.适用性
D.简洁性
2.ABCD下列策略中,哪个策略属于一般的数据清洗策略?
A.手工清洗
B.自动清洗
C.特定应用领域
D.与特定应用领域无关
3.C下列说法中,关于清洗重复值说法正确的是。
A.清洗重复值的基本思想是“分而合之”。
B.清洗重复值的基本思想是“排序”。
C.清洗重复值的基本思想是“排序和合并”。
D.清洗重复值的基本思想是“合并”。
一、填空题
1.__ETL__是实现商务智能(Business Intelligence,即BI)的核心和灵魂。
2.ETL是将业务系统的数据经过抽取、_清洗转换__之后加载到数据仓库的过程。
3. ETL的实现有多种方式,常见方式有借助 ETL工具 、编写SQL语句、 将ETL工具和SQL语句结合使用 。
4.数据的抽取分为数据的全量抽取和数据的 增量抽取 。
5.不符合要求的数据主要有不完整的数据、 错误的数据 、重复的数据三大类。
二、判断题
1.(√)基于ETL的数据清洗是挖掘有价值数据的一种方案。
2.(×)如果数据源为外部文件,可使用SQL语句进行数据清洗工作。
3.(×)不完整数据主要包括日期越界的数据。
4.(√)重复数据检测主要分为基于字段和基于记录的重复检测。
5.(×)Kettle是一款国外免费开源的ETL工具,纯Python语言编写。
三、选择题
1.D下列方式,哪个不属于增量抽取的?
A.触发器方式
B.时间戳方式
C.全表比对方式
D.批量抽取方式
2.A下列算法中,哪个算法不可用于检测重复记录?
A.编辑距离算法
B.优先队列算法
C.N-Gram 聚类算法
D.排序邻居算法
一、填空题
1.__Kettle_是一款国外免费开源的轻量级ETL工具。
2.Kettle可以在Windows、 Linux 、Unix系统上运行,并且是绿色无需安装的。
3.Kettle的集成开发环境 Spoon 提供了一个基于SWT的图形用户界面,主要用于ETL的开发。
4.一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个 转换 操作。
5.转换中的步骤是通过 跳 来连接的。
二、判断题
1.(√)Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
2.(×)Kettle中,一个作业只包含一个作业项。
3.(×)转换跳是作业项之间的连接线,它定义了作业的执行路径。
4.(×)定义一个Kettle的数据库连接,是要真正打开一个到数据库的连接。
5.(√)作业执行的顺序由作业项之间的跳和每个作业项的执行结果来决定。
三、选择题
1.C下列设计原则,哪个不属于Kettle的设计原则?
A.避免自定义开发
B.灵活的数据通道
C.可维护性与可扩展性的原则
D.只映射需要映射的字段
2.D下列类别,哪个不属于作业管理?
A.邮件
B.文件管理
C.条件
D.应用
3.ABCD下列组件中,哪个组件属于Kettle工具?
A.Spoon
B.Pan
C.Kitchen
D.Carte
一、填空题
1.在实际应用中,常用的文本文件类型有两种,分别是TSV文件和 CSV文件 文件。
2.制表符文件中的数据是以 表格 的结构进行储存。
3.使用 逗号 分隔数据字段的文件被称为逗号分隔值文件。
4.HTML可以以 文档 的形式展示,HTML文档中包含 标签 和纯文本。
5. JSON 是一种轻量级的数据交换格式。
二、判断题
1.(×)XML是一种和HTML完全相同的标记语言。
2.(×)JSON是一种编程语言。
3.(√)通过制表符分隔的文本数据与未使用制表符分隔的数据相比,前者更便于观察识别,同时也方便对数据进行抽取操作。
4.(√)CSV文件是以纯文本形式存储表格数据(数字和文本)。
5.(×)NoSQL是No! SQL的缩写。
三、选择题
1.B下列实现原则中,哪个不属于CSV的实现原则?
A.文件开头不能留空,以“列”为单位
B.在文件读写时,引号和逗号操作规则不可互逆
C.文件中不支持数字或特殊字符
D.文件中的一行数据不能跨行,但是行与行间可存在空行
2.D下列关于XML用途的说法中,哪个说法是正确的?
A.XML不可将数据从HTML中分离
B.XML无法简化数据共享
C.XML无法使数据充分利用
D.XML可用于创建新的互联网语言
3.B下列数据库中,哪个数据库属于非关系型数据库?
A.MySQL
B.MongoDB
C.Oracle
D.SQL Server
一、填空题
1.常见的数据清洗操作包括重复值的处理、 缺失值的处理 、异常值的处理。
2.数据缺失分为两种,分别是行记录的缺失和 数据列值的缺失 。
3.异常值的检测方法通常分为三大类,即 无监督式异常值的检测 、监督式异常值的检测以及 半监督式异常值的检测 。
4.数据的一致性有三种类型,即强一致性、 弱一致性 以及最终一致性。
5.修补异常值的方式主要有两种,即 修改异常值 和替换异常值。
二、判断题
1.(×)完全去重指的是消除不完全重复的数据。
2.(×)缺失值产生的原因主要是人为原因。
3.(√)箱型图又称为箱线图,是一种用于显示一组数据分散情况的统计图。
4.(×)数据一致性是指在对一个副本数据进行更新的同时,无需确保也能够更新到其他的副本。
5.(√)检查数据都必须遵守预定义的业务规则,找出不符合业务规则的数据。
三、选择题
1.C下列方法中,哪个方法不是填充缺失值的方法?
A.均值填充
B.热卡填充
C.3σ准则
D.回归填充
2.A下列规范中,为了提高数据的可读性及合理性,企业会要求数据遵守哪些规范?
A.电子邮箱的地址必须是有效的格式
B.用户的年龄必须小于18岁
C.数值可超过预定义的值
D.电话号码无须是xxx-xxxx-xxxx的格式
3.D下列策略中,哪个策略不属于修改异常值的策略?
A.最邻近值替代异常值
B.均值替代异常值
C.众数替代异常值
D.异常值替换成缺失值
一、填空题
1.___数据转换_____是数据清洗过程的重要步骤之一。
2. 不一致数据转换 主要是将不同业务系统中的相同类型的数据进行统一。
3. 一般情况下,会将业务系统数据按数据仓库粒度进行聚合,这个过程被称为 数据粒度的转换 。
一、填空题
1.数据的加载机制可以分为 全量加载 和增量加载。
2.增量加载是指目标表仅加载源数据表中 新增和发生变化 的数据。
3.当数据迁移量过于庞大时,需要针对数据采取 批量加载 操作。
我需要在客户计算机上运行Ruby应用程序。通常需要几天才能完成(复制大备份文件)。问题是如果启用sleep,它会中断应用程序。否则,计算机将持续运行数周,直到我下次访问为止。有什么方法可以防止执行期间休眠并让Windows在执行后休眠吗?欢迎任何疯狂的想法;-) 最佳答案 Here建议使用SetThreadExecutionStateWinAPI函数,使应用程序能够通知系统它正在使用中,从而防止系统在应用程序运行时进入休眠状态或关闭显示。像这样的东西:require'Win32API'ES_AWAYMODE_REQUIRED=0x0
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
我想用ruby编写一个小的命令行实用程序并将其作为gem分发。我知道安装后,Guard、Sass和Thor等某些gem可以从命令行自行运行。为了让gem像二进制文件一样可用,我需要在我的gemspec中指定什么。 最佳答案 Gem::Specification.newdo|s|...s.executable='name_of_executable'...endhttp://docs.rubygems.org/read/chapter/20 关于ruby-在Ruby中编写命令行实用程序
我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr
我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
如何检查Ruby文件是否是通过“require”或“load”导入的,而不是简单地从命令行执行的?例如:foo.rb的内容:puts"Hello"bar.rb的内容require'foo'输出:$./foo.rbHello$./bar.rbHello基本上,我想调用bar.rb以不执行puts调用。 最佳答案 将foo.rb改为:if__FILE__==$0puts"Hello"end检查__FILE__-当前ruby文件的名称-与$0-正在运行的脚本的名称。 关于ruby-检查是否