来自 行业研究 2020-04-24 00:34 的文章

专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布

专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布

受疫情影响,远程协同办公软件市场爆发,腾讯会议上线两个月内日活超千万,在如此高并发流量冲击下,腾讯会议保持了清晰流畅的语音服务。近日,腾讯多媒体实验室高级总监商世东接受LiveVideoStack专访,围绕腾讯会议及其背后的故事进行了分享。

以下为采访实录:

1.选择

离开杜比从来都不是一个困难的决定

刚刚毕业的时候,我在摩托罗拉做音频方面的工作,一做是将近十年的时间。2010年,我去了杜比实验室,算起来是国内入职杜比研发团队的第二个员工。当时负责整个杜比中国的工程团队,差不多有五六十个人的规模。后来我又去了杜比澳大利亚,再后来,也是2019年1月,我加入了腾讯多媒体实验室,在音频技术中心负责整个音频团队的建设、产品的技术路线规划、技术的交互以及负责对多个产品,包括腾讯会议在内的端到端的音频体验,现在团队(音频)大概有20个人。

对我来说,首先,在杜比这样的业界公司工作,我学习到了很多,国际化的视野、前瞻性的技术布局、完整的思维体系、团队建设等等,这些都是让我终身获益的东西。

但离开杜比并不是一个非常困难的决定,这其中大环境、小环境的原因都有一些。我后来回顾了一下,重要的原因还是在于杜比的主要业务是在传统领域,成长速度不尽人意。作为一家主要做技术授权业务的公司,它没有终面对消费者的产品,相对而言公司规模也比较小,对整个生态的影响有限,很难有一个全面的把握。

换一种说法,这其中有很多的东西是个人想要但是平台无法给与的,个人成长容易碰到天花板,想要向上突破的时候,公司已经不能给自己提供这样的平台了。这方面而言的话,在腾讯,天花板几乎不存在,在这里,只要有能力、有潜力、有愿望,个人拥有持续不断的提升空间,并且可以在这个无限上升的空间里做到好,这对我来说是非常重要的一点。

在腾讯面临的用户数量,以前在杜比的时候是想都不敢想的。现在一天会有千万级DAU的产品,可以看到自己开发的产品在整个市场上遇到各种意想不到的困难、挑战、问题以及机会。

现在我们很大一部分的精力放在腾讯会议上,通过种种技术对用户使用场景进行分析并通过统计数据的上报、分析,了解用户可能遇到的问题并快速加以解决。

2.改变

需要更多的思考与更确定的答案

专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布

(PhotobySergey)

以前我们做视频会议,考虑会议中的语音质量提升和评估的出发点都是要求对标或者超越电话(典型的比如电话话筒终端),这个是典型的双人通话场景,但是现在我们也发现视频会议大量的场景都是围绕多人的、多地的联合办公场景。以前基于电信行业终端(电话话筒为主要语音设备)定义的完整的语音质量体系需要重新审视和演进来满足现在用户的需求。简单地说,会议软件是从模仿打电话的体验开始的,虽然从使用方式、使用场景、使用时间等等角度来看,多样性已经远远超过了电话。而且,仅仅俩人打电话是不够的,我们要一个小组打电话,光打电话还不够,还要分享视频、分享屏幕、图片和文档。从国际标准,比如ITU-T的演进路线图来看,制订的通话标准,也不断的从双人通话向多人、跨地区的实时、强交互场景演进。

会议当中关键的语音体验简单的来说,可以从三个维度来衡量,语音通信的可懂度,语音自然度/保真度和语音舒适度。从这三方面来说,在多人会议中面临的挑战明显要多于双人。

比如多人通话采集设备的多样性。两个人的时候当然很好协调,人多了以后采集设备如何配置,以及采集的音质、采样率、比特率;在多人场景里面音频编解码的接入配置,到底是宽带还是超宽带,简单的办法是所有的配置都按照好的来,但是这样对系统资源的占用是高的。同时因为对系统资源的占用高,会带来总体体验的下降。

那么如何动态来在多种因素中平衡,保证多人语音通信的综合体验在三个维度上有优的均衡,变成一个很有挑战性的课题。

同时,不同场景的网络环境也不一样。你的网络、我的网络,可能还有第三个、第四个人的网络,有的人使用有线网络、有的则是WiFi,有的是4G,带宽差异巨大,网络QoS也参差不齐,这时候如何有效的探测网络实际带宽,进而高效的进行流控管理,在多人场景下的复杂度远远高于双人。