HAproxy健康检测机制

时间：2010-06-08 来源：cbin_07

备注：HAProxy版本为1.4.6

1 概述

HAProxy作为Loadbalance，支持对backend的健康检查，以保证在后端backend不能服务时，把从frotend进来的request分配至可以其它可服务的backend，从而保证整体服务的可用性。

2 相关配置

option httpchk <method> <uri> <version>

启用七层健康检测

http-check disable-on-404

如果backend返回404，则除了长连接之外的后续请求将不被分配至该backend

http-check send-state

增加一个header，同步HAProxy中看到的backend状态。该header为server可见。 X-Haproxy-Server-State: UP 2/3; name=bck/srv2; node=lb1; weight=1/2; scur=13/22; qcur=0

server option

check：启用健康检测

inter：健康检测间隔

rise：检测服务可用的连续次数

fall：检测服务不可用的连续次数

error-limit：往server写数据连续失败的次数上限，执行on-error的设定

observe <mode>：把正常服务过程作为健康检测请求，即实时检测

on-error <mode>：满足error-limit后执行的操作（fastinter、fail-check、sudden-death、mark-down）。其中fastinter表示立即按照fastinter的检测延时进行。fail-check表示改次error作为一次检测；sudden-death表示模仿一次fatal，如果紧接着一次fail则置server为down;mark-down表示直接把server置为down状态。

其它

retries：连接失败重试的次数，如果重试该次数后还不能正常服务，则断开连接。

3 检测机制

3.1 相关数据结构

struct server {

......

int health; /* 0->rise-1 = bad; rise->rise+fall-1 = good */

int consecutive_errors; /* current number of consecutive errors */

int rise, fall; /* time in iterations */

int consecutive_errors_limit; /* number of consecutive errors that triggers an event */

short observe, onerror; /* observing mode: one of HANA_OBS_*; what to do on error: on of ANA_ONERR_* */

int inter, fastinter, downinter; /* checks: time in milliseconds */

......

}

3.2 check流程

3.3 server状态切换条件

UP-->DOWN

初始为s->health=s->rise;

if (s->health < s->rise + s->fall – 1) then s->health = s->rise + s->fall – 1;

check失败：s->health--

if (s->health <= s->rise) then set_server_down(), s->health = 0;
DOWN-->UP

初始为s->health=0;

check成功：s->health++

if (s->health == s->rise) then set_server_up(), s->health = s->rise + s->fall – 1;