ZooKeeper是一个分布式的,开放源码的分布式应用程序分布式应用程序/9854429)协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

概述

  • Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目
  • 在大数据技术生态圈中,zookeeper(动物管理员),Hadoop(大象),Hive(蜜蜂),Pig(猪)

工作机制

  • zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架
  • 负责存储管理数据
    • 接受观察者的注册
    • 通知已经注册的观察者做出反应
    • 实现集群中类似Master/Slave管理模式
  • zookeeper = 文件系统 + 通知机制
    1. 服务上线
    2. 获取当前服务列表
    3. 服务器节点下线
    4. 服务器节点上下线事件通知
    5. 重新获取服务器列表,注册监听

特点

分布式和集群的区别:

无论分布式还是集群,都是很多人在做事情,具体区别如下

例子:有一个饭店,越来越火爆,招聘工作人员

  • 分布式:招聘一个厨师,1个服务员,1个前台,3个人负责的工作不同,最终都是为饭店工作
  • 集群:招聘5个服务员,5个人的工作一个
  1. 一个leader和多个follower来组成的集群
  2. 集群中只要有半数以上的节点存活,Zookeeper就能正常工作
  3. 全局数据唯一性,每台服务器都保存一份相同的数据副本,无论哪台client连接哪台server,数据都是一致的
  4. 数据更新原子性,一次数据要么成功,要么失败
  5. 实时性,在一定的时间范围内,client能读取到最新数据
  6. 更新的请求按照顺序执行,会按照发过来的数据,逐一执行

数据结构

  • zookeeper数据模型的结构与linux文件系统很类似,整体上可以看作是一棵树,每个节点称作一个ZNode(ZookeeperNode)
  • 每一个ZNode默认能够存储1MB的数据(元数据),每个ZNode的路径是唯一的
    • 元数据(Metadata),又称中介数据,中继数据,为描述数据的数据,主要是描述数据属性信息,同来支持如指示存储位置,历史记录,资源查找,文件记录等功能

应用场景

  • 提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等

统一命名服务

  • 在分布式环境下,对环境进行统一命名

统一配置管理

  • 分布式环境下进行配置同步

  • 将配置管理交给zookeeper
    1. 将配置信息写到某个节点上
    2. 每个客户端都监听这个节点
    3. 一旦节点中的数据被修改,通知每台服务器

服务器节点动态上下线

  • 客户端能够获取服务器节点的上下线情况

软负载均衡

  • 统计每台服务器的访问情况,访问次数最少的节点去处理最新的请求(雨露均沾