大规模音频理解与合成解决方案及应用

大规模音频理解与合成解决方案及应用

高性能计算与 AI 2020/03/12 19:00:00

课程讲师

司徒文畅字节跳动智能语音方向工程负责人

2011年毕业于清华大学电子系，超过5年语音工程实践经验，现任字节跳动人工智能实验室智能语音方向工程负责人、服务架构师，致力于打造工业级智能语音解决方案以及极致语音应用体验。

司徒文畅

字节跳动智能语音方向工程负责人

课程提纲

课程简介

人工智能发展到现在，大家对语音技术已经不陌生了。其中，音频理解与合成在我们日常生活中具有广泛的应用，比如视频字幕生成、视频配音、有声新闻、有声小说等，极大的丰富了我们的生活。

音频理解是指通过语音识别、事件检测、语种识别、声纹识别、关键词检测等技术从音频数据中解析出多维度信息（音频的类型、内容等）；音频合成则是包括TTS、音色转换等技术，能从文本或者原始语音生成不同风格的音频。借助这两种技术，音频内容创作人员可以实现一键生成字幕和一键配音，极大提升效率。

伴随短视频和音频类应用兴起，用户请求量、音频数据正呈几何级别增长，为大规模数据模型训练以及高并发低延迟的推理带来诸多挑战：模型训练的速度、规模影响模型效果迭代的效率，在线推理的性能则直接影响用户的体验。那么，大规模音频理解和合成的训练和推理应如何构建和加速？

字节跳动人工智能实验室在训练和推理中部署了大量NVIDIA Tesla系列GPU，包含面向AI训练的V100和面向推理加速的P4、T4等，为大规模音频理解与合成的训练和推理提供强有力的支撑，使其可以广泛应用于抖音、今日头条等大流量场景。

3月12日，智东西公开课推出语音理解与合成公开课NVIDIA&字节跳动联合专场，并邀请到字节跳动智能语音方向工程负责人司徒文畅主讲，主题为《大规模音频理解与合成解决方案及应用》。

司徒文畅老师将从音频理解与合成的关键技术、应用、分布式训练和在线推理加速等方面为我们带来系统讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

更多问题...