一、单选:
1、下列选项中,执行哪一个命令查看Linux系统的IP配置。
A、ipconfig
B、find
C、ifconfig
D、arp -a
2、在MapReduce程序中,map()函数接收的数据格式是()。
A、字符串
B、整型
C、Long
D、键值对
3、下列选项中,关于HDFS的架构说法正确的是()。
A、HDFS采用的是主备架构
B、HDFS采用的是主从架构
C、HDFS采用的是从备架构
D、以上说法均错误
4、下列选项中,主要用于决定整个MapReduce程序性能高低的阶段是()。
A、MapTask
B、ReduceTask
C、分片、格式化数据源
D、Shuffle
5、下列选项中,用于上传文件的Shell命令是()。
A、-ls
B、-mv
C、-cp
D、-put
6、HDFS中的Block默认保存()份。
A、3份
B、2份
C、1份
D、不确定
7、下列选项中,若是哪个节点关闭了,就无法访问Hadoop集群()。
A、namenode
B、datanode
C、secondary namenode
D、yarn
8、下列选项中,Hadoop2.x版本独有的进程是()。
A、JobTracker
B、TaskTracker
C、NodeManager
D、NameNode
9、Hadoop2.0集群服务启动进程中,下列选项不包含的是()。
A、NameNode
B、JobTracker
C、DataNode
D、ResourceManager
10、下列选项中,存放Hadoop配置文件的目录是()。
A、include
B、bin
C、libexec
D、etc
11、Hadoop1.0中,Hadoop内核的主要组成是()。
A、HDFS和MapReduce
B、HDFS和Yarn
C、Yarn
D、MapReduce和Yarn
12、在MapTask的Combine阶段,当处理完所有数据时,MapTask会对所有的临时文件进行一次()。
A、分片操作
B、合并操作
C、格式化操作
D、溢写操作
13、一个gzip文件大小75MB,客户端设置Block大小为64MB,占用Block的个数是()。
A、1
B、2
C、3
D、4
14、下列选项中,哪一项是研究大数据最重要的意义()。
A、分析
B、统计
C、测试
D、预测
15、Hive定义一个自定义函数类时,需要继承以下哪个类?
A、FunctionRegistry
B、UDF
C、MapReduce
16、Hive最重视的性能是可测量性、延展性、()和对于输入格式的宽松匹配性。
A、较低恢复性
B、容错性
C、快速查询
D、可处理大量数据
17、在Hadoop的解压目录下,通过执行哪一项指令可以查看Hadoop的目录结构。()
A、jps
B、ll
C、tar
D、find
18、下列选项中,关于HDFS说法错误的是()。
A、HDFS是Hadoop的核心之一
B、HDFS源于Google的GFS论文
C、HDFS用于存储海量大数据
D、HDFS是用于计算海量大数据
19、按粒度大小的顺序,Hive数据被分为:数据库、数据表、()、桶。
A、元祖
B、栏
C、分区
D、行
20、在HDFS中,用于保存数据的节点是()。
A、namenode
B、datanode
C、secondaryNode
D、yarn
21、下列哪项通常是集群的最主要的性能瓶颈?
A、CPU
B、网络
C、磁盘
D、内存
22、下列选项中,哪项不是Hive系统架构的组成部分?
A、用户接口
B、跨语言服务
C、HDFS
D、底层驱动引擎
23、Hive查询语言和SQL的一个不同之处在于()操作。
A、Group by
B、Join
C、Partition
D、Union
24、Hive加载数据文件到数据表中的关键语法是?
A、LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename
B、INSERTDATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename
C、LOAD DATA INFILE d:\car.csv APPEND INTO TABLE t_car_temp FIELDS TERMINATED BY “,”
D、INSERTDATA [LOCAL] INFILE d:\car.csv APPEND INTO TABLE t_car_temp FIELDS TERMINATED BY “,”
25、下列选项中,哪一个可以对Hadoop集群进行格式化()。
A、hadoop namenode -format
B、hadoop namenode -ls
C、hdfs datanode -ls
D、hdfs datanode -format
26、下列选项中,一键启动HDFS集群的指令是()。
A、start-namenode.sh
B、start-datanode.sh
C、start-dfs.sh
D、start-slave.sh
27、关于SecondaryNameNode哪项是正确的?
A、它是NameNode的热备
B、它对内存没有要求
C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间
D、SecondaryNameNode应与NameNode部署到一个节点
28、下列选项中,哪个配置文件可以配置HDFS地址、端口号以及临时文件目录()。
A、core-site.xml
B、hdfs-site.xml
C、mapred-site.xml
D、yarn-site.xml
29、下列说法中,关于客户端从HDFS中读取数据的说法错误的是()。
A、客户端会选取排序靠前的DataNode来依次读取Block块
B、客户端会把最终读取出来所有的Block块合并成一个完整的最终文件
C、客户端会选取排序靠后的DataNode来依读取Block块
D、如果客户端本身就是DataNode,那么将从本地直接获取数据
30、Hadoop集群启动成功后,用于监控HDFS集群的端口是()。
A、50010
B、50075
C、8485
D、50070
31、下列说法不正确的是?
A、数据源是数据仓库的基础,通常包含企业的各种内部信息和外部信息。
B、数据存储及管理是整个数据仓库的核心。
C、OLAP服务器对需要分析的数据按照多维数据模型进行重组、分析,发现数据规律和趋势。
D、前端工具主要功能是将数据可视化展示在前端页面中。
32、下列选项中,用于删除HDFS上文件夹的方法是()。
A、delete()
B、rename()
C、mkdirs()
D、copyToLocalFile()
33、每个Map任务都有一个内存缓冲区,默认大小是()。
A、128M
B、64M
C、100M
D、32M
34、Hive建表时,数值列的字段类型选取decimal(x,y)与Float、double的区别,下列说法正确的是?
A、decimal(x,y)是整数,Float、double是小数
B、Float、double在进行sum等聚合运算时,会出现JAVA精度问题
C、decimal(x,y)是数值截取函数,Float、double是数据类型
35、下列选项中,关于SSH服务说法正确的是()。
A、SSH服务是一种传输协议
B、SSH服务是一种通信协议
C、SSH服务是一种数据包协议
D、SSH服务是一种网络安全协议
36、以下选项中,哪种类型间的转换是不被Hive查询语言所支持的?
A、Double—Number
B、BigInt—Double
C、Int—BigInt
D、String—Double
二、 填空
答案:
["主题", "非易实"]
答案:
["HDFS集群"]
答案:
["NAT"]
答案:
["Shuffle"]
答案:
["一"]
答案:
["纵向扩容"]
答案:
["Derby"]
答案:
["元数据"]
答案:
["单词个数"]
答案:
["_SUCCESS"]
答案:
["商业版"]
答案:
["JobTracker"]
答案:
["sbin"]
答案:
["DT"]
答案:
["链接克隆"]
答案:
["业务"]
答案:
["HDFS", "转换"]
答案:
["嵌入模式"]
答案:
["Linux"]
答案:
["联机分析处理OLAP"]
答案:
["精准营销", "风险管控"]
答案:
["Read(读)"]
答案:
["成百上千台服务器机器"]
答案:
["hdfs-site.xml"]
答案:
["数据去重"]
答案:
["活跃", "备用/待命"]
答案:
["map()", "reduce()"]
答案:
["分片"]
答案:
["分而治之"]
答案:
["排序"]
答案:
["块数据校验"]
答案:
["倒排索引"]
答案:
["高度容错"]
答案:
["source /etc/profile"]
答案:
["集群运行模式"]
答案:
["一次写入,多次读取"]
三、判断
1. 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。
2. 在Linux中,mkdir命令主要用于在指定路径下创建子目录。
3. 当我们完成Hadoop集群的安装和配置后,就可以直接启动集群。
4. MapReduce通过TextOutputFormat组件输出到结果文件中。
5. 在HDFS中,namenode用于决定数据存储到哪一个datanode节点上。
6. 因为HDFS有多个副本,所以 NameNode是不存在单点故障的。
7. Secondary NameNode可以有效缩短Hadoop集群的启动时间。
8. JobTracker只负责执行TaskTracker分配的计算任务。
9. Hadoop HA是两台NameNode同时执行NameNode角色的工作。
10. MapReduce任务会根据机架获取离自己比较近的网络数据。
11. 由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。
17. Hadoop HA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。
18. 启动Hadoop HA后,可通过端口号50070查看当前节点的NameNode状态
19.大数据在医疗行业中可以有效控制疾病的发生
四、简述:
答案:
hadoop-env.sh提供了Hadoop中的JAVA_HOME运行环境变量。
答案:
添加Hadoop环境变量
答案:
大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。
答案:
当存储数据块的服务器中突然有一台机器宕机,我们就无法正常的获取文件了,这个问题被称为单点故障
答案:
(1)用户通过用户接口UI将执行的查询操作发送给驱动器执行。
(2)驱动器借助查询编译器解析查询,检查语法和查询计划或查询需求。
(3)编译器将元数据请求发送到Metastore(任何数据库)。
(4)编译器将元数据作为对编译器的响应发送出去。
(5)编译器检查需求并将计划重新发送给驱动器。至此,查询的解析和编译已经完成。
(6)驱动器将执行计划发送给执行引擎执行Job任务。
(7)执行引擎从DataNode上获取结果集,并将结果发送给用户接口UI和驱动器。
答案:
Map阶段:负责将任务分解,即把复杂的任务分解成若干个“简单的任务”来并行处理,但前提是这些任务没有必然的依赖关系,可以单独执行任务。 Reduce阶段:负责将任务合并,即把Map阶段的结果进行全局汇总。
答案:
一旦Active NameNode挂掉后,Standby NameNode就会在它成为Active状态之前读取所有的JournalNodes里的日志信息,这样就能够保证与挂掉的NameNode的目录镜像树一致,然后无缝的接替它的职责,维护来自客户端请求。
答案:
(1)用户通过客户端Client向YARN提交应用程序Applicastion,提交的内容包含Application的必备信息,例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
(2)YARN中的ResourceManager接收到客户端应用程序的请求后,ResourceManager中的调度器(Scheduler)会为应用程序分配一个容器,用于运行本次程序对应的ApplicationMaster。图6-2中的MR App Mstr表示的是MapReduce程序的ApplicationMaster。
(3)ApplicationMaster被创建后,首先向ResourceManager注册信息,这样用户可以通过ResourceManager查看应用程序的运行状态。接下来的第(4)~(7)步是应用程序的具体执行步骤。
(4)ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源。
(5)ResourceManager向提出申请的ApplicationMaster分配资源。一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。
(6)NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。
(7)各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。
(8)应用运行结束后,ApplicationMaster向ResourceManager注销自己,并关闭自己。如果ApplicationMaster因为发生故障导致任务失败,那么ResourceManager中的应用程序管理器会将其重新启动,直到所有任务执行完毕。
答案:
在NameNode内部是以元数据的形式,维护着两个文件,分别是FsImage镜像文件和EditLog日志文件。其中,FsImage镜像文件用于存储整个文件系统命名空间的信息,EditLog日志文件用于持久化记录文件系统元数据发生的变化。当NameNode启动的时候,FsImage镜像文件就会被加载到内存中,然后对内存里的数据执行记录的操作,以确保内存所保留的数据处于最新的状态,这样就加快了元数据的读取和更新操作。
答案:
(1)在每台机器上启动Zookeeper服务。
(2)手动启动Journalnode。
(3)格式化NameNode,并且把格式化后生成的目录拷贝到另外一台NameNode上。
(4)格式化zkfc,在Active节点上执行即可。
(5)启动HDFS服务。
(6)启动Yarn服务。
答案:
Hive核心驱动引擎是由编译器(Compiler),优化器(Optimizer),执行器(Executor)组成,它们用于完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成,生成的查询计划存储在HDFS中,并在随后由MapReduce调用执行。
答案:
创建表阶段:外部表创建表的时候,不会移动数到数据仓库目录中(/user/hive/warehouse),只会记录表数据存放的路径,内部表会把数据复制或剪切到表的目录下。 删除表阶段:外部表在删除表的时候只会删除表的元数据信息不会删除表数据,内部表删除时会将元数据信息和表数据同时删除。
答案:
HDFS分布式文件系统具有优点和缺点。优点有高容错、流式数据访问、支持超大文件、高数据吞吐量以及可构建在廉价的机器上;缺点有高延迟、不适合小文件存取场景以及不适合并发写入。
答案:
(1)客户端向NameNode发起RPC请求,来获取请求文件Block数据块所在的位置。
(2)NameNode检测元数据文件,会视情况返回Block块信息或者全部Block块信息,对于每个Block块,NameNode都会返回含有该Block副本的DataNode地址。
(3)客户端会选取排序靠前的DataNode来依次读取Block块(如果客户端本身就是DataNode,那么将从本地直接获取数据),每一个Block都会进行CheckSum(完整性验证),若文件不完整,则客户端会继续向NameNode获取下一批的Block列表,直到验证读取出来文件是完整的,则Block读取完毕。
(4) 客户端会把最终读取出来所有的Block块合并成一个完整的最终文件
答案:
在SSH中使用密码主要是增加安全性,在某些情况下也根本不会设置密码通信。
答案:
(1) OLTP是传统关系型数据库的主要应用,主要针对的是基本的日常事务处理,例如,银行转账。
(2) OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,例如,商品的推荐系统。
答案:
getRecordWriter()方法用于返回一个RecordWriter的实例,checkOutputSpecs()方法用于检测任务输出规范是否有效,getOutputCommiter()方法来负责输出被正确提交。
答案:
Hadoop生态体系中常见的子系统:
HDFS分布式文件系统、
MapReduce分布式计算框架、
Yarn资源管理框架、
Sqoop数据迁移工具、
Mahout数据挖掘算法库、
HBase分布式存储系统、
Zookeeper分布式协作服务、
Hive基于Hadoop的数据仓库以及Flume日志收集工具。
答案:
FsImage镜像文件用于存储整个文件系统命名空间的信息,EditLog日志文件用于持久化记录文件系统元数据发生的变化。
答案:
DataNode会定时上报Block块的信息给NameNode,NameNode就会得知该副本缺失,然后NameNode就会启动副本复制流程以保证数据块的备份!
答案:
Hive中的元数据通常包括:表名、列、分区及其相关属性(内部表和外部表),表数据所在目录的位置信息。
答案:
MapReduce的工作过程一共有5个步骤,分别是先分片、格式化数据源,再执行MapTask过程,接着执行Shuffle过程,然后执行ReduceTask过程,最后是写入文件操作。
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co
我正在尝试在Rails上安装ruby,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手