建设微服务API网关的一些实践
扫描二维码
随时随地手机看文章
目前API网关实现的功能包括请求分发、条件路由、API管理、限流隔离、熔断降级、安全策略、监控报警以及调用链追踪等。
我们的API网关基于RxNetty开发,整个流程是异步响应式的,可以达到较高的单机并发。基于少造轮子的理念,API网关的大部分功能都是结合现有平台实现。包括请求分发、条件路由基于微服务框架,限流隔离、熔断降级基于稳定性平台,监控报警基于监控平台等,安全策略基于大数据分析平台等。注册中心与配置中心则分别负责服务注册核心信息与第三方配置信息的下发。
经过一系列url规范化行动后,我们的url目前不同的应用都会采取不同的前缀,同时这个前缀信息会随着应用注册到注册中心。这样网关进行服务发现时会给不同的url前缀以及微服务应用构建不同的namespace对象,在进行请求匹配时候只需根据url前缀选取到对应的namespace即可匹配到对应微服务应用,后续就是现有微服务框架SDK的功能:路由、负载均衡直至完成整个调用。
这里还涉及到另一个问题,网关选择服务发现的应用是哪些?即我需要拉取哪些应用信息以构建namespace?我们这里对服务发现对象进行了管理,用户可在管控平台上控制微服务应用在网关层的上下线,这会通过我们的配置中心推送到网关并进行一次热更新,刷新内存缓存,这样就做到了请求分发服务的动态增减。
同样的,在基于Nginx开发的网关中,一般是维护多套upstream列表,然后通过某种策略将不同请求代理到不同upstream。
在我们的实现中,条件路由依然是复用现有的微服务框架,避免重复造轮子。每个应用都可以根据一些规则创建一些分组,分组中有若干实例。在网关进行服务发现初始化时会给每个应用创建Invoker代理对象,Invoker内会根据不同的分组创建不同的Space空间,请求调用时会对这些Space空间进行规则匹配,从而决定是否路由到特定分组上。整个过程都是微服务框架完成的,没有额外的开发工作。
目前我们支持按照特定内容或者流量比例两种方式进行请求来源规则的匹配,特定内容包括http请求的header、attribute等等。我们目前的实例分组主要是根据“版本”这个标来区分的,所以分配规则主要是支持“版本”维度,未来考虑支持到Kubernetes的Pod label。
实现上和之前的应用上下线类似,额外依赖了DB存储,用户在管控平台进行API发布等操作会先存储在DB中,随后通过配置中心pub/sub通知到网关。我们在namespace匹配前加入了一层filter以过滤删除/未上线的API,所以热更新该filter对象即可。
用户体验方面我们也做了一些工作,包括:
-
从微服务管控平台直接同步新增的API接口到网关管控平台,而无需手动添加。此外也支持多种格式的文件导入。(我们的微服务注册模型会包括API信息等元数据)
-
各个环境之间通过流转功能发布API,而无需重复添加
-
对各个状态的筛选展示
-
与DevOps平台配合,在应用发布流转时同步提醒进行API管理的发布流转。
我们的限流隔离/熔断降级均基于稳定性平台与配置中心实现,稳定性平台是我们基于Sentinel二次开发的。整个结构如下图所示:
稳定性相关的功能主要包括限流隔离以及熔断降级。限流隔离主要是作用在流入方向服务端测的流量控制,其中限流主要是控制QPS,隔离主要是控制并发数。熔断降级则是作用在流出方向客户端测的流量控制,可以配置在一定错误率情况下进行熔断,并配合降级数据快速返回。
以上规则均可以通过稳定性平台配置,然后由配置中心分发到API网关,再进行热更新刷新内存缓存。每次请求时sentinel sdk都会帮我们做好数据统计并判断是否符合规则,同时被限流隔离、熔断降级的流量都会通过相关SDK(基于Prometheus)暴露Metrics数据给监控平台,以便我们随时观察到流量控制水平。
整个安全策略的结构如上所示。用户可以在网关管控平台手动进行规则配置,经由配置中心下发到API网关的securityControl进行热更新。在请求来临时由securityControl判断是否符合规则,被封禁的流量同样暴露metrics数据给监控平台供我们随时查看。
此外,手动配置封禁规则在某些场景可能比较低效。我们同时还会将网关日志实时采集至大数据分析平台,经分析后如果判断某个IP或者用户存在异常情况,会自动配置安全策略规则至网关管控平台,同时触发一个报警提醒业务owner。
在安全策略目标方面,我们目前支持包括根据客户端IP、用户ID、其余http header/attribute等。策略行为方面目前支持快速失败以及验证码,后者用户会在前端被跳转到一个人机验证码的页面。
报警这块除了针对Metrics信息/错误日志的报警,还可以支持主机层面的报警。
得益于监控平台以及调用链埋点SDK,API网关几乎不需要改造成本即可接入。整体结构如下所示,API网关内嵌了Metrics SDK暴露Metrics信息到Endpoint供监控中心拉取,tracing sdk负责埋点打印tracing日志,tracing日志和业务日志均会通过日志采集器输入监控中心处理。在监控平台上,用户可以查询调用链、监控、日志信息,API网关发生的主机异常或者业务异常也会报警给owner。
这里值得一提的是,当网关调用后端微服务应用发生异常时,例如超时、连接池耗尽等,这些错误发生在客户端即API网关,所以触发的报警只会报给API网关的owner。但是API网关仅仅作为一个转发服务,其超时很大程度是因为后端微服务rt过高,所以报警应该同时报给后端微服务owner,为此我们开发了双端告警,一份告警会同时发送给客户端和服务端双方。
-
我们还支持websocket协议,本次没有详细说。
-
在多云部署环境下,网关承载了一个多云流量调度服务的角色。
以及未来可以优化的地方:
-
首先是我们的高并发能力并未怎么经过实际验证,由于tob商业模式公司没有太多高并发的场景。
-
考虑引入规则引擎来应付各种下发的规则,包括安全策略、稳定性、路由规则等。
-
安全策略考虑会支持更多一些,例如IP网段,及支持各种逻辑与或非。