草庐IT

hadoop-examples

全部标签

基于Hadoop部署实践对网站日志分析(大数据分析案例)

目录1、项目概述2、总体设计2.1Hadoop插件安装及部署3、详细实现步骤操作纪要3.1hadoop环境准备3.2源数据文件准备3.3python开发mapreduce脚本3.4根据结果文件结构建立hive数据库表 3.4.1在结果文件上创建分区表 3.4.2按日期创建分区3.5使用Hive对结果表进行数据分析统计 3.5.1PV量 3.5.2注册用户数 3.5.3独立IP数 3.5.4跳出用户数3.6使用Sqoop将hive分析结果表导入mysql 3.6.1创建mysql表 3.6.2将hive结果文件导入mysql附加操作—增添色彩本地Navicat连接:数据可视化(项目色彩一);将数

Java+MySql+hadoop高校固定资产管理系统74965-计算机毕业设计项目选题推荐(赠源码)

摘 要     在信息飞速发展的今天,网络已成为人们重要的信息交流平台。高校部门每天都有大量的信息需要通过网络发布,为此,高校固定资产管理系统开发的必然性,所以本人开发了一个基于Tomcat(服务器)模式的高校固定资产管理系统,该系统以B/S/Java语言、MySql数据库等为开发技术,实现了添加、修改、查看、删除系统数据。本系统采取组件化的方式对系统进行拆分,并对数据库中各个表的增删查改、表与表之间的约束关系进行分析与设计,最终实现符合用户需求功能的商业级应用。系统界面简洁大方,布局合理,易操作易上手。对应用户的每一步操作,系统都能高响应地做出反馈。系统功能具体包含对系统首页、系统用户(管理

搭建完全分布式Hadoop

文章目录一、Hadoop集群规划二、在主节点上配置Hadoop(一)登录虚拟机(二)设置主机名(三)主机名与IP地址映射(四)关闭与禁用防火墙(五)配置免密登录(六)配置JDK(七)配置Hadoop1、上传安装包2、解压缩安装包3、配置环境变量4、编辑Hadoop环境配置文件-hadoop-env.sh5、编辑Hadoop核心配置文件-core-site.xml6、编辑HDFS配置文件-hdfs-site.xml7、编辑MapReduce配置文件-mapred-site.xml8、编辑YARN配置文件-yarn-site.xml9、编辑数据节点文件-workers三、从主节点分发到从节点(一)

Hadoop 相关介绍

目录一、Hadoop介绍二、Hadoop架构1、Hadoop1.x架构2、Hadoop2.x3.x架构三、HDFS介绍1、HDFS架构2、HDFS特点四、Hadoop之MapReduce初体验1、使用上述的测试包,计算圆周率2、使用上述的测试包,进行词频统计一、Hadoop介绍1.Hadoop之父:道格卡丁(DougCutting)2.吉祥物:大象3.Hadoop解释:狭义解释:指的是HDFS、MapReduce、Yarn等框架.广义解释:指的是Hadoop生态圈,包括但不限于周边所有技术.4.Hadoop组成:HDFS(Hadoopdistributedfilesystem):Hadoop分

Hadoop搭建

一、伪分布式搭建1.配置网络vi /etc/sysconfig/network-scripts/ifcfg-ens33更改BOOTPROTO=staticONBOOT=yes添加IPADDR=192.168.116.200   NETMASK=255.255.255.0GATEWAY=192.168.116.2    DNS1=114.114.114.114保存然后:wq退出输入servicenetworkrestart 在ipaddr查看是否成功 再pingwww.baidu.com    ctrl+c结束2.把包拖入opt里面然后解压cd/opttar -zxf /opt/jdk-8u22

大数据- Hadoop入门

目录🐶2.1hadoop的简介1.概述2.什么是分布式?3.Hadoop的指代🐶2.2hadoop的发展历程🐶2.3hadoop的版本介绍🐶2.4hadoop的常用端口号🐶2.5hadoop的设计目的🐶2.6hadoop的优势1.高可靠性2.高扩展性3.高效性4.高容错性5.低成本🐶2.1hadoop的简介1.概述Hadoop是一个对大量数据进行分布式处理的软件框架前文我们提到大数据主要解决海量数据的采集、存储和分析计算问题。其中Hadoop框架主要解决海量数据的存储和分析计算问题HDFS(hadoopdistributefilesystem)-分布式文件系统,解决海量数据的存储问题MR(Ma

Hadoop高可靠集群搭建步骤(手把手教学)【超级详细】

Hadoop高可靠集群搭建步骤(手把手教学)【超级详细】文章目录1HA集群基础配置1.1创建系统为Centos7(Linux)的虚拟机1.2基本网络配置1.3连接FinalShell2NTP时间同步和免密登录2.1NTP时间同步2.2集群免密登录3JDK的安装与配置4Zookeeper的安装与配置5高可靠的Hadoop集群的安装与配置【核心】6.功能验证注意创作不易,关注一波呗1HA集群基础配置 基于VMwareWorkstation17Pro1.1创建系统为Centos7(Linux)的虚拟机一、用管理员身份运行虚拟机二、创建新的虚拟机:选择自定义→选择硬件兼容性:Workstation15

大数据——hadoop环境安装(docker搭建)

一、这里我们使用docker搭建hadoop集群环境1、拉取centos或ubuntu等系统的镜像docker的安装这里我们就跳过了,如果docker没有安装的话,可以跳到docker安装教程#我这里使用centos为例子dockerpullcentos2、创建一个dockerfiler文件,用来构建自定义一个有ssh功能的centos镜像(因为默认的centos镜像是没有任何功能的)vim./Dockerfile#######这个Dockerfile主要是基于CentOS镜像进行一些系统设置和软件安装,最终生成一个包含SSH服务的镜像。#######dockerfile的内容#基础镜像FRO

Hadoop

1.分布式和集群介绍分布式:多台机器做不同的事情,然后组成1个整体.集群:多台机器做相同的事情.多台机器既可以组成中心化模式(主从模式),也可以组成去中心化模式(主备模式)2.Hadoop框架国内外应用国外Yahoo雅虎,节点4.2W+,超10W核,总存储350PB+,每月提交作业1000W+国内阿里巴巴,节点3000+,超4W核心,内存超100TB,每月提交作业450W+Hadoop的组成HDFS:分布式存储框架MapReduce:分布式计算框架Yarn:任务接收和调度器 3.Hadoop的架构图   ①Hadoop1.X=HDFS+MapReduce   ②Hadoop2.X,3.X=HD

Hadoop精选18道面试题(附回答思路)

1.简述Hadoop1和Hadoop2的架构异同HDFSHA(HighAvailablity) 一旦Active节点出现故障,就可以立即切换到Standby节点,避免了单点故障问题。 加入了对zookeeper支持实现比较可靠的高可用。 YARN 将MapReduce1.0中的资源管理调度功能分离出来形成了YARN,一个纯粹的资源任务管理调度框架,避免了内存受限问题。2.简述HDFSHadoop分布式文件系统文件系统 目录树定位文件 分布式 数据大,要拆,要分,再存。 "拆":block128M "分":编号,找namenode,分配 "存":传完第一份后内网互传 副本机制,一式三份 均衡