B 站崩了 尴尬的却是A站

by June 2021-07-14

昨晚,B 站崩了登上热搜,全端开始无法访问,随后,A站、豆瓣等网站也出现访问故障。今日凌晨,B 站发布公告称,昨晚,B 站的部分服务器机房发生故障,造成无法访问。技术团队随即进行了问题排查和修复,现在服务已经陆续恢复正常。而针对网友传言的 B 站大楼失火一事,上海消防官博进行了辟谣,B 站大楼并未出现火情。

回顾昨晚“B站崩了”话题占据各社交热搜,短短几分钟,整个论坛社交软件变成百家讲坛:停电说、火灾说、删库跑路说、刑事案件说、服务器供应商说、外星人说、黑客攻击说、大楼坍塌说、陈睿遇刺说……

一时间引发轩然大波,这也从侧面说明B站服务影响力之大,总比崩了之后没人关心要好。

当然,众多技术大佬的猜测与分析后,小智也找到一些比较理性的分析,下面是知乎排名第一的余歌的猜测:因为云服务提供商出现意外,A站和豆瓣很快接到报警,然后启动容灾方案,重新部署了环境。

至于bilibili,从这篇文章(在朋友圈被戏虐很久)https://cloud.tencent.com/developer/article/1618923 可以得知B站的LB是自研的,还有容灾系统也是自研的,一种比较靠谱的可能流程是:

1. 云服务提供商提供的CDN出现意外之后,大量请求绕过CDN直接打到网关。

2. 网关收到大量请求,自动启动了容灾策略。

3. 容灾策略启动服务降级,服务降级了但没完全降。

4. CDN挂了,网关也跟着挂了,服务雪崩,一直崩到整个环境。

5. 整个环境炸了,重启全部容器需要相当长的时间。

至于一些其他情况可能性就太低了。鸡蛋不可能放在一个篮子里,bilibili这么大一公司也不可能把机器全放在一栋楼,然后楼里断电还没ups。大家都是冷备热备冷热备,多机房异地容灾,长时间还没恢复目前合理的情况只有这一个了。

更有趣的是,不止B站,A站、晋江、豆瓣统统都崩了,并齐聚于微博热搜。不过,这次新浪服务器倒是挺住了。图片

如果说B站究竟为何崩了还没有明确的答案,但是A站崩了的起因就好判断多了,疑似B站崩后,大量用户涌入A站,A站承受不住这么大流量导致崩溃。随后网友又一起涌入豆瓣、晋江想看看是怎么回事,这两个平台也没Hold住齐刷刷瘫痪。最后所有网友齐聚微博,致使新浪程序员连夜加班扩容,上演互联网大型内卷现场。

回过头来看,这波B站看似崩了,但胜在无形。B站挂了,所有用户去逛A站,但A站平时根本撑不起这样的流量,所以才顺便弄挂了,你说尴尬不尴尬?

那么问题来了,像A站这种大型社死现场今后如何避免,也就是说如何应对大规模集群的管理呢?

面对突如其来的数据激增,如何应对大规模集群的管理,弹性扩容的重要性不言而喻。这次集体崩溃事件中,新浪微博就表现的不错。A站能否吸取教训做到更好呢?

大数据时代中,最具活力与远见的企业通常能够及时洞察用户需求,直击用户痛点,作为企业级大数据解决方案提供商智领云不仅有自己差异性的技术优势,更提供了相应的产品。相较于大部分公司更多基于K8S的方案进行深度定制,智领云的特殊之处则在于,团队对使用Mesos管理云原生大数据平台有丰富的经验。大部分创业公司可能更多基于K8S的方案进行深度定制,智领云则可以将K8S与Mesos深度融合。

Mesos和K8S都支持大规模集群管理,不过Mesos可以调度的集群节点更多,可以轻松调度万级以上节点。一般说来,如果只是用于容器集群管理无状态应用,K8S更加合适;如果定制需求比较多,或者要搭建包含很多有状态组件的大数据平台,架构相对松耦合的Mesos更加合适。在不少生产系统中,例如联通、浙江移动,都采用了Mesos+K8S的技术架构,来应对业务系统和数据平台的混合调度需求。 

Mesos在大规模生产系统中已经有较多的实际验证,在国内,也有不少公司选择了Mesos,比如爱奇艺、中国联通、三一重工、去哪儿、携程、当当等,爱奇艺用Mesos管理着大约2000台物理机,联通的“天宫”平台支持6200+的集群节点。 

有了弹性扩容,用户再也不用担心有一天会“崩”了 

在具体产品中,智领云在应用云平台中具有按需调度的功能,即同时兼容Mesos和Kubernetes,按需灵活配置资源管理方式。传统 IT 解决方案,扩容和降容必须更改配置,费时又费力。而BDOS 应用云平台,则能够实现可弹性扩容和降容,无需额外配置。 

值得强调的是,容器大数据平台的敏捷弹性的特性,能够使得大数据系统(Hadoop、Hive、Kafka、Spark)及应用敏捷发布和按需弹性集群扩展。 

比如在2020人工智能应用挑战赛上,300所高校,超2000名参赛选手,初赛提交赛题结果达4400余份,如此大规模的数据竞赛,参赛选手们也完全不必担心因数据量过大,平台无法智能的进行集群动态运维和资源算法分配管理。 

原因就在于,在本次挑战赛的实训平台中,智领云 BDOS 大数据解决方案中的容器大数据平台,能够完美解决因用户规模大、数据量激增所带来的海量数据的处理问题, 而这完全得益于BDOS 大数据解决方案架构体系中,容器大数据平台所具备的分布式存储系统、分布式计算框架、任务调度框架以及多租户管理等功能,可以一次性满足竞赛平台同时拥有高可用、易伸缩、可扩展、高安全的多重特性。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.