一、典型案例回顾
(一)变更操作不当
20XX年12月1日,某系统的项目组发现其云上系统历史数据丢失,经查,由于另一项目组人员于11月25日执行数据删除操作时误删除了该系统的历史数据所致。由于该系统曾将数据备份到云硬盘,并做了定期快照,通过快照数据恢复找回了历史数据。
(二)未与关联系统有效协同应急
20XX年12月4日,联通互联网线路故障导致公有云联通线路异常,某系统在应急处置过程中,将互联网出访通道从联通地址切换至其他运营商地址,由于未进行关联系统协同应急,切换后的地址不在对端应用白名单范围内,导致应用报“IP地址白名单校验失败”错误,经再次调整出访地址后恢复。
(三)租户端网络容量不足和配置缺陷
20XX年8月30日,某系统的用户通过互联网办理业务缓慢,经查,由于当天为学校新学期报到日,当天业务量约为平时的3.5倍,其申请的公有云带宽被占满,导致交易缓慢。
20XX年12月6日,某租户连接私有云的PLA线路故障,导致业务受到影响,经查,由于该租户专线通道未配置BFD探测(双向转发检测),无法实现故障通道的自动切换。
(四)安全风险意识不够导致安全事件频发。
20XX年9月11日,安全团队在日常监控中发现某租户账号下的三台虚机命中木马。经查,因租户未经WAF防护将关键业务接口直接暴露在互联网上,且缺失相应的权限校验,导致黑客可直接利用该接口进行木马植入。事后通过销毁该集群,彻底根除该木马的威胁。
20XX年9月16日,安全团队在日常监控中发现某租户账号下的一台虚机命中木马,经查,租户将3389端口经过映射后直接暴露在互联网上,且登录密码为弱密码,导致虚机被暴力破解成功后植入木马,事后通过销毁该虚机,彻底根除该木马的威胁。
20XX年12月10日,安全团队在日常监控中发现某租户账号下的一台虚机命中木马,经查,该事件为租户擅自对外开放非标端口服务,未经WAF防护,导致风险敞口直接对互联网暴露。事后通过销毁该虚机,彻底根除该木马的威胁。
20XX年12月27日,某租户私自将未备案的域名通过外部DNS解析到公有云的互联网地址,导致其地址所在的整条线路被运营商封禁。
二、风险提示及改进要求
针对上述典型案例,公有云运管中心组织了专题讨论研究,在《关于进一步加强公有云上部署应用系统运维规范的函》(公有云运管中心〔20XX〕14号)基础上,进一步明确了以下改进要求:
(一)加强配置和变更管理
项目组应加强配置管理,云上系统应严格按照《建行云产品设计指引及使用约束》(附件2)规范落实系统配置,应制定相应流程对配置进行增删改等全流程管理,保证运维人员熟悉了解所辖系统配置。公有云租户控制台、运维堡垒机的账号权限按照最小必需原则配置。加强变更管理,系统变更内容要经过变更管理部门审核,变更操作要双人复核,历史变更要有记录可供查询。
(二)落实系统数据备份
项目组制定所辖系统的数据备份策略并落实数据备份实施工作,要求备份范围涵盖业务数据、配置数据、软件介质等,能够涵盖系统恢复所需要的所有数据,保证备份完整;根据根据业务要求制定合理备份周期,满足恢复需要;定期对备份数据进行恢复验证,保证备份有效。可使用云硬盘快照、对象存储等产品对数据进行备份,如果在云服务器自行安装部署数据库,注意做好数据库备份工作。
(三)推进应用监控
项目组应建立并完善应用层面数据、交易、日志等监控体系,对数据完整性、交易成功率、日志关键字等重要指标异常实现主动告警。
公有云已上线应用监控系统,可为租户提供应用监控、日志监控及相关管理功能,用户手册请见附件3,接口规范请见附件4,请项目组积极完成相关接口改造,制定应用监控纳管计划,尽快纳入公有云应用监控系统。
(四)加强应急协同
项目组应定期重检应急预案,重点检查并演练与关联应用系统及公有云运管中心的协同场景,如涉及IP地址白名单等场景,需保证应急场景下本系统地址切换与关联应用系统的白名单同步更新。
(五)优化公网及专线网络配置
项目组完善租户端监控指标和告警策略配置,定期检查包括租户端带宽等资源使用情况,确保资源容量满足运行要求。
1.对于公有云网络产品如负载均衡、弹性公网IP等,注意设置流量下限、上限监控告警。
2.对端连接为私有云的专线通道
(1)对于29位掩码的专线通道,应开启BFD探测,保证故障通道自动切换,并将专线通道的冗余模式设置为负载均衡模式。
(2)对于30位掩码的专线通道,应尽快确定时间窗口,将专线通道改造为29位掩码,开启BFD探测,并将专线通道的冗余模式设置为负载均衡模式。
2.对端连接为其他外联单位的专线通道
(1)对于29位掩码的专线通道,应尽快与外联单位明确是否开启BFD以及专线通道的冗余模式,并约定切换策略。
(2)对于30位掩码的专线通道,如确定不开启BFD,则通道不具有故障自动切换能力,需将通道冗余模式设置为主备模式,保证通道的手动切换能力。
(六)强化安全意识和安全管控
1. 除通过WAF开放的业务通道以及通过龙堡垒开放的管理通道外,禁止租户私自对互联网开放端口和服务,如确有特殊需求,一事一批;
2.弹性公网IP(EIP)禁止直接和云主机绑定用于业务或管理入口,如确有特殊需求,一事一批;
3.暴力破解是目前互联网上最常见也最有效的攻击手段,务必提高口令安全强度,规避此类攻击风险;
4.实时关注建行云安全产品发送的告警信息和漏洞信息,并实时进行跟踪和处置;
5. 禁止使用NAT网关新建端口转发规则的方式实现互联网入访;
6.严禁将未备案的域名指向公有云IP地址。