如果初次接触git的朋友一定搞不清git,github以及gitlab这几个概念。
git如果不知道是啥,那你总知道svn是啥吧。什么?svn也不知道?那只好辛苦你动动手搜一下了。
git用一句话介绍:它是一个分布式的版本管理工具。通过两张图来对比svn和git的最主要的差异——分布式。
技术面前,永远都是学生。
如果初次接触git的朋友一定搞不清git,github以及gitlab这几个概念。
git如果不知道是啥,那你总知道svn是啥吧。什么?svn也不知道?那只好辛苦你动动手搜一下了。
git用一句话介绍:它是一个分布式的版本管理工具。通过两张图来对比svn和git的最主要的差异——分布式。
准备两台机器 192.168.0.84 192.168.0.83
设置hostname
192.168.0.84
|
|
Jenkins 是一个可扩展的持续集成引擎。
主要用于:
Jenkins拥有的特性包括:
因为jenkins需要java环境,需要提前安装JDK。
下载JDK后解压
|
|
编辑文件
|
|
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。
这里的“超大文件”是指几百MB、GB甚至TB级别的文件。
HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。
HDFS设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用。
大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。
大数据,可帮助我们察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。
麦肯锡全球研究院(MGI)预测,到 2020年,全球数据使用量预计将达到 35ZB(1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB)。
虽然大数据越来越流行,但其学习的门槛却一直阻碍着很多的分布式应用初学者或者大数据的业务应用开发者。多个产品之间的不兼容问题,快速集成和维护也显得比较困难。不管是 Hadoop V1 或者 V2 的安装,又或者 Spark/YARN 等的集成,都不是几行简单的命令可以完成的,而是需要手工修改很多的集群配置,这进一步增加了业务开发者的学习和使用难度。有了 Ambari,这些都不再是难题。
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。
本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制