编者按
4月10日下午在北京举办的“架构师实践日”沙龙中,来自秒拍的技术负责人贾朝藤向大家做了题为“亿级短视频应用秒拍的架构实践”的分享。近几年来,各种短视频应用在国内应用市场火爆登场,微博投资,以优质拍摄体验著称的短视频应用秒怕,更是短视频应用中的佼佼者。本期贾朝藤为我们揭开秒拍亿级短视频架构的神秘面纱,以及秒拍是如何在复杂网络环境下保证优质用户体验的。
秒拍的系统架构
产品的演进、用户量的增长推动了技术的变革,下面是秒拍的技术架构图。
最上面Wb和App是直接面对用户的,还有微博和其他合作方的合作也是在最上面一层。直接面向服务的是业务逻辑的API,比如一些活动和视频的列表展现和用户的一些列表展现,都是在API里面有提供。这些API视频和用户分为用户服务和视频服务,现在已经在划分了。用户服务和视频服务他们依赖于很多底层服务,比如说用户关系、计数、搜索、Push、推荐、敏感词过滤、Fd、存储等。
用什么写业务
一开始秒拍是用Java加Mongodb做的,之后因为PHP平台开发效率很高,再加上Mongodb写的一些限制,所以我们迁移到了PHP、Rdis、Mmcach、Mysql等典型的后端语言和基础设施。我们的机房部署主要是新浪私有云平台,还有一些业务放在阿里云。
大并发、大数据量下的一些小问题
去年小咖秀突然火起来,秒拍和小咖秀的视频和用户量爆增,暴露出了业务中的一些问题,比如WbSrvr大爆,体现在业务中大范围不可用,主要是联通机房,报警频繁。直接原因主要是PHP连接时间过长,导致PHP超连接数,根本原因是因为Mysql业务需求变更,新来的需求加个索引,如果这个表里面没有数据,会与其它表连表查,这样就会导致问题积累,tabl连接过多,子表查询也太多。还有很多count(*)计数,count(*)计数本身是非常耗DB的CPU的,统计频繁会导致DB的CPU压力过大,返回时间过长。PHP这边写业务主要是因为它快,它处理完后,快速结束,快速释放资源,它如果堵塞时间过长的话,Srvr这边等待连接过多,就会有频繁的。另外一个问题就是Mysql断连。因为DB列表肯定需要设置一些timout,防止连接超时时你的sql不释放连接,一直卡在DB这边。所以如果业务查询压力过大,或者是表连接过长,或是表格的复杂操作,超过timout时间就会导致断连。因为业务中没有兼容,就会突然增多。解决方案是我们这边count查询统一走计数器,计数器迁移出来作为一个基础微服务。同时,我们把数据表结构,重新进行了rviw,把不合理的字段重新划分,相应的索引进行划分,还有一些不合理的产品需求也进行了更改,还有就是部分字段进行了冗余存储,因为查询一次写之后它基本上就是不会变更了,然后就进行冗余存储。优化结果是、基本上没有了,业务查询SQL更简洁,查询效率也很高,开发人员写起来也比较爽。
还有一个问题就是mysql这边因为历史数据堆积,历史数据没有进行拆库拆表,单库、单表的容量很大,DDL操作成本会很大。增减一个表的字段或者加索引的话,很容易影响主从同步,还会会拖慢业务请求。同时DBA这边心理压力也比较大,因为新加一个字断,改一个字断,加一个索引,会影响业务,投诉会很多。这样可能会表的修改会拖慢,查询性能也会下降。mysql这边有些数据是放在rdis这边,rdis这边主要的问题集中在实例过少,还有就是数据分布不均匀。因为你的业务不能用到实例就去连一下,另外一个业务用的另外一个实例又去连一下,业务它的用量可能分布不均匀,就会导致数据分布不均匀。关键就在于有的业务一个ky里面存放了大量的数据,然后它如果有一个复杂操作,Rdis这边又不太兼容,就会影响到其它的服务。解决方案也就是比较常见的,就是进行拆库,拆表。然后我们这边也划分了核心业务和非核心业务,根据业务属性,拆分数据库,核心业务与非核心业务互不干扰。Rdis这边也根据业务类型、操作复杂度,划分了Rdis实例,业务、服务之前互不干扰,离线计算不影响在线业务。
我们还做了其他业务优化,比如说耗时在线逻辑异步离线处理。缓存治理是优化不合理缓存、复用缓存、减少不必要字段查询、降低网络传输延时。还有一个是功能模块服务化,比如说关系服务。请求合并与压缩是正在做的,业务逻辑API一层直接提供客户端,但是它的内部可能会分成很多的子模块,传统方式是一个子模块一个子模块,一个子服务一个子服务地去请求,出问题以后重试一次。我们这边做的是获取服务的数据,降低网络延迟。视频上传完之后,在业务层要做处理,比如说消息fanout,通知后端服务,后续处服务进行异步化。
核心业务上传和播放
秒拍是短视频,每个视频大小基本是两三兆以内,我们是直接用了HTTP协议进行播放和上传处理的。上传流程可以简单看一下,如下图。
客户端向业务逻辑服务器申请上传,然后业务逻辑服务器告诉它使用哪个上传点上传,之后它可以选择七牛或者是新浪S3存储上传分片,传完之后进行合并,七牛云服务器会通知业务服务器,它已经长传完了,之后业务服务器去做视频传完之后状态的更新,然后再到客户端,处理完成。接下来进行转码和截图服务,转码和截图服务很多是依赖第三方的服务,比如七牛、新浪S3。其实上传工作我们这做了很多优化,比如特效预览、特效处理我们是放在手机端处理,如果放在业务服务器或者是业务服务里面,它会承受很多转码处理的压力,然后客户端资源是闲置的。而且手机端它需要处理完之后预览,用户未必说选择这个特效之后就不用另外一个特效了。再加上手机端的功能现在已经比较强大了,所以视频处理可以先在客户端做好转码压缩之后,再向业务服务器进行上传。
接下来讲播放,播放流程最简化的就是客户端先去请求资源地址,因为是