文章目录一,了解HDFSJavaAPI(一)HDFS常见类与接口(二)FileSystem的常用方法二,编写Java程序访问HDFS01创建Maven项目02添加相关依赖03创建日志属性文件(1)在resources目录里创建log4j.properties文件04启动集群HDFS服务05在HDFS上创建文件(1)创建net.army.hdfs包(2)在net.army.hdfs包里创建CreateFileOnHDFS类(3)编写create1()方法(4)编写create2()方法,事先判断文件是否存在06写入HDFS文件(1)在net.hw.hdfs包里创建WriteFileOnHDFS类
Git官方网站:https://git-scm.com/docsGit在线练习地址:https://learngitbranching.js.org/Git常用命令gitadd.提交当前文件夹下所有修改文件gitstatus查看修改那些文件gitcommit-m"message"提交到在暂存区gitpull拉去当前分支最新代码gitpush推送当前已修改代码到当前远程分支gitpop隐藏修改文件gitresetHEAD^回退一个版本gitresetHEAD^^回退两个版本gitresetHEAD~100回退100个版本gitreset-hardHEAD~1回退上一个版本gitreset-har
-学习linux系统操作是因为实验跑代码所使用的服务器是ubuntu系统,-为了能够在linux系统上更高效的修改代码、改error以及完成相应的系统设置,就跟着b站上的《黑马程序员》的课程听了一遍,其中用到了centos,搭配FinalShell。-平时是使用Xshell7和Xftp7SSH远程连接服务器。-写篇博客为了加深学习印象和防止遗忘命令。 1、ls命令ls命令的作用是列出目录下的内容:ls[-a-l-h][linux路径] -a-l-h是可选的选项-a选项:表示all的意思,即列出全部文件(包含隐藏的文件,文件夹)图片中以.开头的,表示Linux系统的隐藏文件/文件夹-l选
目录HadoopHadoop的优势Hadoop的组成HDFS架构设计Yarn架构设计MapReduce架构设计总结在大数据时代,Hadoop作为一种开源的分布式计算框架,已经成为处理大规模数据的首选工具。它采用了分布式存储和计算的方式,能够高效地处理海量数据。Hadoop的核心由三大组件组成:HDFS、MapReduce和YARN。本文将为您逐一介绍这三个组件。HadoopHadoop是一个开源的分布式计算和存储框架,主要解决海量数据的存储和海量数据的分析计算。Hadoop的优势高可扩展性:Hadoop可以轻松地扩展到大规模集群,并处理大量的数据。它采用分布式计算的方式,将工作负载分布在集群中
Docker是一个开源的应用容器引擎,它允许开发者打包他们的应用以及应用的依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。以下是一些常用的Docker命令,这些命令帮助用户管理Docker容器、镜像和系统:系统级别命令启动Docker:sudosystemctlstartdocker停止Docker:sudosystemctlstopdocker重启Docker:sudosystemctlrestartdocker查看Docker状态:sudosystemctlstatusdocker设置Docker开机自启:
1.什么是大数据狭义(技术思维):使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。广义:大数据是数字化时代,信息化时代的基础(技术)支撑,以数据为生活赋能。大数据的核心工作:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。(海量数据存储、海量数据传输、海量数据计算)2.大数据的核心工作存储:妥善保存海量待处理数据计算:完成海量数据的价值挖掘传输:协助各个环节的数据传输3.大数据的生态存储:ApacheHadoopHDFS、ApacheHBase、ApacheKudu、云平台计算:ApacheHadoopMapReduce、ApacheSpark、ApacheFlink传
sudosuroot 打开root权限passwdroot 修改root密码ctrlshift+ 字符变大ctrl- 字符变小cd. 返回本目录cd.. 返回上一级目录cd 绝对路径 如:cd/home/kali/Desktopcd下一级目录 进入下一级目录如:cd kalipwd 返回当前路径cat 文件名 读取文件ls-a 显示当前目录下所有文件ls-la 显示当前目录下所有文件权限 大小等详细信息cp本地文件或者其他
Git是一个流行的分布式版本控制系统,用于跟踪文件的变化、协作开发和管理代码。以下是一些常用的Git命令:创建和克隆仓库:gitinit:在当前目录初始化一个新的Git仓库。gitclone:克隆一个远程仓库到本地。添加和提交文件:gitadd:将文件添加到暂存区。gitadd.:将所有修改过的文件添加到暂存区。gitcommit-m"提交信息":提交暂存区的文件到本地仓库。分支操作:gitbranch:列出所有分支。gitbranch:创建一个新的分支。gitcheckout:切换到指定分支。gitmerge:将指定分支合并到当前分支。gitbranch-d:删除指定分支。远程仓库操作:gi
1、HDFS概述Hadoop分布式系统框架中,首要的基础功能就是文件系统,在Hadoop中使用FileSystem这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFS(HadoopDistributedFileSystem)是Hadoop项目的一个子项目。是Hadoop的核心组件之一,Hadoop非常适于存储大
🏆作者简介:哪吒,CSDN2022博客之星Top1、CSDN2021博客之星Top2、多届新星计划导师✌、博客专家💪,专注Java硬核干货分享,立志做到Java赛道全网TopN。🏆本文收录于,Java基础教程系列,目前已经700+订阅,CSDN最强Java专栏,包含全部Java基础知识点、Java8新特性、Java集合、Java多线程、Java代码实例,理论结合实战,实现Java的轻松学习。🏆姐妹篇,Java基础教程(入门篇),包含面向对象、基本数据类型、数组、继承和多态、泛型、枚举等Java基础知识点。🏆姐妹进阶篇,Java基础教程(进阶篇),包含Java高并发、Spring、MySQL