git,github,gitlab

        如果初次接触git的朋友一定搞不清git,github以及gitlab这几个概念。

        git如果不知道是啥,那你总知道svn是啥吧。什么?svn也不知道?那只好辛苦你动动手搜一下了。

        git用一句话介绍:它是一个分布式的版本管理工具。通过两张图来对比svn和git的最主要的差异——分布式。

阅读全文 >>

jenkins是什么?

        Jenkins 是一个可扩展的持续集成引擎。

        主要用于:

  • 持续、自动地构建/测试软件项目。
  • 监控一些定时执行的任务。

        Jenkins拥有的特性包括:

  • 易于安装-只要把jenkins.war部署到servlet容器,不需要数据库支持。
  • 易于配置-所有配置都是通过其提供的web界面实现。
  • 集成RSS/E-mail通过RSS发布构建结果或当构建完成时通过e-mail通知。
  • 生成JUnit/TestNG测试报告。
  • 分布式构建支持Jenkins能够让多台计算机一起构建/测试。
  • 文件识别:Jenkins能够跟踪哪次构建生成哪些jar,哪次构建使用哪个版本的jar等。
  • 插件支持:支持扩展插件,你可以开发适合自己团队使用的工具。

阅读全文 >>

使用jenkins进行持续集成

安装JDK

        因为jenkins需要java环境,需要提前安装JDK。

        下载JDK后解压

1
2
[root@localhost ~]# tar zxvf jdk-8u111-linux-x64.tar.gz
[root@localhost ~]# mv jdk1.8.0_111/ /usr/local/

        编辑文件

1
[root@localhost ~]# vim /etc/profile.d/java.sh

阅读全文 >>

Avro简介

一、引言

1、 简介

        Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。

阅读全文 >>

HDFS原理分析—— 基本概念

        HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。

一、HDFS的主要设计理念

1、存储超大文件

        这里的“超大文件”是指几百MB、GB甚至TB级别的文件。

2、最高效的访问模式是 一次写入、多次读取(流式数据访问)

        HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。

3、运行在普通廉价的服务器上

        HDFS设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用。

阅读全文 >>

Hadoop 大数据

1.大数据介绍

        大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。

        大数据,可帮助我们察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。

        麦肯锡全球研究院(MGI)预测,到 2020年,全球数据使用量预计将达到 35ZB(1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB)。

阅读全文 >>

Ambari——大数据平台的搭建利器

        虽然大数据越来越流行,但其学习的门槛却一直阻碍着很多的分布式应用初学者或者大数据的业务应用开发者。多个产品之间的不兼容问题,快速集成和维护也显得比较困难。不管是 Hadoop V1 或者 V2 的安装,又或者 Spark/YARN 等的集成,都不是几行简单的命令可以完成的,而是需要手工修改很多的集群配置,这进一步增加了业务开发者的学习和使用难度。有了 Ambari,这些都不再是难题。

阅读全文 >>