- 课程回放
大规模音频理解与合成解决方案及应用
高性能计算与 AI 2020/03/12 19:00:00
课程讲师
课程提纲
- 音频理解与合成的关键技术及应用
- 音频理解与合成分布式训练平台及加速方案
- 音频理解与合成在线推理框架及应用加速
课程简介
人工智能发展到现在,大家对语音技术已经不陌生了。其中,音频理解与合成在我们日常生活中具有广泛的应用,比如视频字幕生成、视频配音、有声新闻、有声小说等,极大的丰富了我们的生活。
音频理解是指通过语音识别、事件检测、语种识别、声纹识别、关键词检测等技术从音频数据中解析出多维度信息(音频的类型、内容等);音频合成则是包括TTS、音色转换等技术,能从文本或者原始语音生成不同风格的音频。借助这两种技术,音频内容创作人员可以实现一键生成字幕和一键配音,极大提升效率。
伴随短视频和音频类应用兴起,用户请求量、音频数据正呈几何级别增长,为大规模数据模型训练以及高并发低延迟的推理带来诸多挑战:模型训练的速度、规模影响模型效果迭代的效率,在线推理的性能则直接影响用户的体验。那么,大规模音频理解和合成的训练和推理应如何构建和加速?
字节跳动人工智能实验室在训练和推理中部署了大量NVIDIA Tesla系列GPU,包含面向AI训练的V100和面向推理加速的P4、T4等,为大规模音频理解与合成的训练和推理提供强有力的支撑,使其可以广泛应用于抖音、今日头条等大流量场景。
3月12日,智东西公开课推出语音理解与合成公开课NVIDIA&字节跳动联合专场,并邀请到字节跳动智能语音方向工程负责人司徒文畅主讲,主题为《大规模音频理解与合成解决方案及应用》。
司徒文畅老师将从音频理解与合成的关键技术、应用、分布式训练和在线推理加速等方面为我们带来系统讲解。
精彩问答
提问
提问