绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
×
首页
直播
合辑
专场
智东西
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智猩猩
智东西
车东西
芯东西
智猩猩
智猩猩
智猩猩官网
智猩猩小程序
线下大会
预告
公开课
讲座
专场
提问
|
回答
提问
分享到:
问题出自:
大规模音频理解与合成解决方案及应用
转写的标点符号没看到?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 字幕场景目前是故意不加标点
回答
相关问答
如何保证大规模语音理解和合成的准确性和响应速度?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅 首先分解下,先从准确性上去描述,然后再说响应速度的问题。准确性上其实识别跟合成稍微不同,识别可以分为声学模型的方案,还有语言模型的方案,声学模型主要是通过加数...
阅读全文 〉
请问达到demo里的语音识别效果大概需要多少数据?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 10wh+,但具体多少不方便透露...
阅读全文 〉
您提到的语音合成声码器部分是完全自研的,有可能介绍下吗?或者这部分成果有发表相关论文可以查阅学习下吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 暂时没有发表论文,还处于技术保密期...
阅读全文 〉
请问训练服务器用什么型号显卡?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: V100,1080Ti 也有,但很少...
阅读全文 〉
kaldi作为基础平台,用chain训练,对于新的说法,可以做增强吗?还是说需要全语料数据再次训练?如何更好持续提高识别精度
2020-05-28 13:59:51
冰逸: 在kaldi里面chain模型是有提升,不过我们没用过这个模型,没在我们自己的数据试过...
阅读全文 〉
普通话是没有问题的,就是方言的识别是不是非常困难?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 是的,如果要一门方言去建设基本就是耗费大量人力物力的事情,我们在探索的是端到端的方案。...
阅读全文 〉
请问端到端的合成韵律预测部分是什么方案呢?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 基于 BERT 的...
阅读全文 〉
训练框架中,错误重试和断点续算那块是做到自动化了吗?如果可以做到,是如何做到的?利用MPI的机制?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前还是通过 checkpoint 来手动恢复,自动化的方案正在建设中...
阅读全文 〉
如何利用多GPU如1080ti来提高模型的训练速度呢
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前有用 MPI 和 NCCL 的,单机用 NvLink 通信,多机用 RDMA...
阅读全文 〉
有这方面的比较成熟的方案吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 这个问题我问下负责标点的算法同学,我暂时回答不了...
阅读全文 〉
如何给语音识别结果打标点符号?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 这个就是 NLP 的模型了,你是想问具体的模型方案么?...
阅读全文 〉
会议录音能自动识别并浓缩成会议纪要么?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 这是正在做的方向,需要有NLP方面的能力,包括同时翻译也是...
阅读全文 〉
方言、外语小语种、多种语言混杂能否识别?实时性如何?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前主要还是中英的,其他的方言和小语种有部分在建设中,主要还是从需求出发。...
阅读全文 〉
请问各种直播能实现实时识别并上字幕么?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 可以的,我们内部的一些会议其实已经上了,效果正在持续打磨中...
阅读全文 〉
请问拿到一段音频还能区别是真人语音还是合成的吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 首先做到以假乱真是合成第一步,其次有同时在研究用模型来区分音频是否是合成出来的...
阅读全文 〉
头条合成是用的merlin吗, 有端到端的方案啊?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 没有用 merlin,这部分是自建的端到端的方案...
阅读全文 〉
有点好奇歌唱生成的音调韵律部分是怎么生成的,老师能简单介绍一下吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 这个算法上的问题超出我这边能解答的范围了,你有兴趣的话可以底下交流,我把你的问题给算法同学帮忙回答下...
阅读全文 〉
语音增强方面请问用的深度学习方案还是传统方案,能够进行实时的视频通话去噪么?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前线上模型训练数据用的更多还是传统方案,深度方案在实验中。通话去噪目前更多是结合前端处理方案在做。...
阅读全文 〉
请问小说合身这块,是不是用到了情感合成,和其他合成方案是不是不一样,另外实时音色转换有例子可以分享么?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 是的,有情感分析和合成的部分,也有角色分析。实时音色转换因为技术敏感性的问题不能分享例子,抱歉...
阅读全文 〉
目前合成用的是端到端的神经网络模型么?是自己设计的还是用已有方案呢?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 是端到端的,有自研优化的部分,另外声码器是纯自研的...
阅读全文 〉
字幕生成的话,除了中文,你们也在做多语种吗,有体验的API吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 也有英文的,目前暂时没有对外开放 API...
阅读全文 〉
请问音乐音转文模型和普通场景音转文模型一致吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前为了效果更好是分开的...
阅读全文 〉
问一下,是否有东南亚语系,如缅甸的老挞语的语音合成方案
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 暂时还没有
阅读全文 〉
我听说目前语音合成是真实人声+模型,是这样吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 你是指拼接或者拼接+参数方案,我们目前用的是纯参数的...
阅读全文 〉
asr识别全部是字节自己的算法识别的么。还是三方的
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 都是自研的
阅读全文 〉
语音识别数据集是请的人标注的嘛?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 是的,主要是标注,我们有自己的标注团队...
阅读全文 〉
视频配音的话,是读入整段视频呢?还是流媒体形式的?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 目前是整段的
阅读全文 〉
后面那个韵律也是自动生成的配音?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 目前还不是,是为了演示效果添加的,会是我们之后会做的一个功能点...
阅读全文 〉
请问这个视频字幕是离线先处理好的吗?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 实时的,可以自行到抖音或者剪映体验...
阅读全文 〉
也不是100%正确率是还是需要校对
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 是的,只是大大缩减了时间...
阅读全文 〉
单字同步可以做到吗?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 可以
阅读全文 〉
Asr引擎依靠的服务器计算资源是cpu还是GPU?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 字幕主要依靠GPU...
阅读全文 〉
目前asr实时率能做到多少。从效果来看确实很棒
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 一般RTF在0.1以内,得看模型...
阅读全文 〉
语音合成在视频配音场景有人用吗?用户使用频次高吗?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 视频配音后面会提及...
阅读全文 〉
这是靠类似ASR的技术,还是和曲库比对做的呢?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: ASR,没有做曲库对比...
阅读全文 〉
这个是联合背景音一起识别 还是单独上行啊?转写的标点符号呢,没看到呢?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 一起的,没有专门做分离;字幕场景目前是故意不加标点的...
阅读全文 〉
如果公司有大量的原始音频数据,如何筛选数据,以及起步去建立自己的模型?有哪些要素是必须要有的?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 我们一般把这个问题叫冷启动问题,其实对于冷启动还是有不少的方案,这里主要描述一个比较朴素的流程。因为是原始数据,要先进行标注,那首先要关心的是要筛选什么样的...
阅读全文 〉
如果一段音频有好几个人讲话,能识别出哪些话是第一个人说的,哪些话是第二个人说的吗?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 答案是可以,这里介绍两个方案,第一个是无监督的方案,就是可以把整段音频切分出很多小段,然后对所有的小段进行说话人的聚类,然后通过聚类的结果来判断有哪几个人,...
阅读全文 〉
在音乐检索领域,目前有没有“音乐转歌词”的相关研究和项目推荐?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 对于这个问题其实有两种理解,一种是你是想说通过音乐检索出它的歌词,可以直接用一个音频指纹的技术,根据这个片段先搜到是哪首歌,然后去曲库里面找对应的歌词。另外...
阅读全文 〉