2000多名工程师提前三个月筹备 华为“云”上的春节“保卫战”

副标题:

来源:深圳新闻网 | 2022-01-27 09:47:50
深圳新闻网 | 2022-01-27 09:47:50
原标题:
正在加载

读创/深圳商报记者 陈姝

抢火车票、抢机票、云聚餐、云拜年、抢红包、刷弹幕……随着数字技术发展,各种“云”上应用逐渐成为春节的新年俗。数倍激增的流量洪峰需要稳定可靠的技术保障,这些都离不开云服务的支持。记者近日获悉,为了应对今年春节期间各大平台激增的流量,华为云投入2000多名工程师,从去年11月就开始筹备,打响了一场数字世界的“春节保卫战”。

图:华为云位于贵安的一个数据中心

图:华为云位于贵安的一个数据中心

业务高峰持续近一个月

对云服务商来说,春节保障有哪些难点?据华为云SRE专家张智介绍 ,一方面,春节将迎来数倍激增的流量洪峰,各个平台都将面临突入好几倍的流量压力,如何保证平台流畅稳定的体验?另一方面,云上的几百万台服务器,几亿行代码,遍布了几十个站点,如何处理软硬件的突发问题,云厂商需要具备不中断、不延迟等服务能力。

张智说,华为云覆盖医疗、教育、数字交通、音视频等众多行业,每个行业流量高峰点不一样。如交通行业的高峰期是在春节前几天。而网上抢红包,亲朋好友视频拜年,网络收看春晚等均集中在除夕夜前几小时爆发,流量洪峰是平常资源容量的10倍甚至更多。据预测,今年春节期间,视频直播类流量同比增长6.5倍,某视频APP弹幕流量增长15倍,华为手机应用市场流量增长10倍。“春节前后都是我们的业务高峰,要持续近一个月的时间,需要做好充分的准备”。

提前三个月筹备

准备工作一般提前三个月就会展开。为了今年春节,华为云从去年11月5日开始筹备,识别了112个重点保障场景,覆盖音视频、社交、高速、文旅、酒店、物流、汽车、教育等各行业的重点业务。

华为云云资源运营负责人刘青介绍 ,华为云流量精算师前期会对容量做三维一体的评估,包括重要客户的用户画像,通过历史资源消耗的趋势,分析其行为习惯,判断春节期间可能会面临哪些资源的使用高峰。同时,AI算法基于概率统计模型和神经网络模型,模拟资源消耗趋势,“还会结合具体情景,比如说春节、元旦等重要时间点,选择调优算法,做多轮模型演练,从而做到精准预测,等到春节流量洪峰来的时候,保证让客户平稳地在华为云上使用这些资源和服务”。

图:华为云监控作战指挥中心

图:华为云监控作战指挥中心

一年以来,华为云已经进行了2000多次实战演练,涉及2000多名技术工程师、220多个云服务,覆盖容灾、冗余、过载、数据备份、误操作等多种场景。值得一提的是,华为云还设置了“红蓝军对抗演练”,华为云SRE专家石胜兵说:“‘蓝军’与‘红军’间是没有沟通,考题全部保密,什么时候触发这个考题,由总策划来决策,演练完全突发”。他说,在某次演练,总指挥临时决策,将演练从晚上9点提前到凌晨5点,就是为了校验IT系统能不能及时叫醒SRE工程师,马上上线接入系统,一方面锻炼队伍,一方面也是考验专业素质。

数百人除夕夜值守

据介绍,今年春节期间,华为云SRE(站点可靠性工程师)团队会有数百人牺牲休息时间进行值守保障,实时监控64万多个指标,保障全网200多个站点。

华为云SRE负责人安宇说,今年除夕,保障高峰是从当天晚饭前到正月初一零点后。当晚,位于全国五个城市的华为云春节保障的百人团队会全部就位,在办公区域或作战室待命。每隔半个小时巡检流量情况,一旦流量跟预期有较大出入的时候,会提出警告。流量高峰结束以后,在凌晨1点多还做一个复盘,为元宵节的保障做参考。除了云系统自愈修复外,华为云SRE工程师实行7×24小时排班制,时刻准备着对异常问题进行界定和修复。今年春节,华为云预计将拦截外部攻击数亿次,监测平台数据每秒新增100万条。

不仅是春节,华为云SRE团队也在应对社交平台热搜事件、电商节日、突发情况等日常节点时,通过风险挖掘评估,容量保障等措施保障了各种数字平台的平稳运行。

最新数据显示,华为云已上线220多个云服务、210多个解决方案,聚合全球超过3万家合作伙伴,发展260万开发者,云市场上架应用超过6100个。在中国,华为云服务了80%的50强互联网客户,根据2021年4月Gartner研究报告,华为云全球IaaS市场排名上升至中国第二、全球前五。

编辑:李雪菲 责任编辑:
点击收起全文
扫一扫 分享到微信
|
热点推荐
正在阅读:2000多名工程师提前三个月筹备 华为“云”上的春节“保卫战”
扫一扫 分享到微信
手机看
扫一扫 手机继续看
A- A+