绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
×
首页
直播
合辑
专场
智东西
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智东西公开课
智东西
车东西
芯东西
公开课
公开课官网
公开课小程序
GTIC/GACS
预告
合辑
专场
下载
提问
|
回答
提问
分享到:
问题出自:
大规模音频理解与合成解决方案及应用
普通话是没有问题的,就是方言的识别是不是非常困难?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 是的,如果要一门方言去建设基本就是耗费大量人力物力的事情,我们在探索的是端到端的方案。
回答
相关问答
如何保证大规模语音理解和合成的准确性和响应速度?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅 首先分解下,先从准确性上去描述,然后再说响应速度的问题。准确性上其实识别跟合成稍微不同,识别可以分为声学模型的方案,还有语言模型的方案,声学模型主要是通过加数...
阅读全文 〉
请问达到demo里的语音识别效果大概需要多少数据?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 10wh+,但具体多少不方便透露...
阅读全文 〉
您提到的语音合成声码器部分是完全自研的,有可能介绍下吗?或者这部分成果有发表相关论文可以查阅学习下吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 暂时没有发表论文,还处于技术保密期...
阅读全文 〉
请问训练服务器用什么型号显卡?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: V100,1080Ti 也有,但很少...
阅读全文 〉
kaldi作为基础平台,用chain训练,对于新的说法,可以做增强吗?还是说需要全语料数据再次训练?如何更好持续提高识别精度
2020-05-28 13:59:51
冰逸: 在kaldi里面chain模型是有提升,不过我们没用过这个模型,没在我们自己的数据试过...
阅读全文 〉
请问端到端的合成韵律预测部分是什么方案呢?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 基于 BERT 的...
阅读全文 〉
训练框架中,错误重试和断点续算那块是做到自动化了吗?如果可以做到,是如何做到的?利用MPI的机制?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前还是通过 checkpoint 来手动恢复,自动化的方案正在建设中...
阅读全文 〉
如何利用多GPU如1080ti来提高模型的训练速度呢
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前有用 MPI 和 NCCL 的,单机用 NvLink 通信,多机用 RDMA...
阅读全文 〉
有这方面的比较成熟的方案吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 这个问题我问下负责标点的算法同学,我暂时回答不了...
阅读全文 〉
如何给语音识别结果打标点符号?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 这个就是 NLP 的模型了,你是想问具体的模型方案么?...
阅读全文 〉
会议录音能自动识别并浓缩成会议纪要么?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 这是正在做的方向,需要有NLP方面的能力,包括同时翻译也是...
阅读全文 〉
方言、外语小语种、多种语言混杂能否识别?实时性如何?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前主要还是中英的,其他的方言和小语种有部分在建设中,主要还是从需求出发。...
阅读全文 〉
请问各种直播能实现实时识别并上字幕么?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 可以的,我们内部的一些会议其实已经上了,效果正在持续打磨中...
阅读全文 〉
请问拿到一段音频还能区别是真人语音还是合成的吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 首先做到以假乱真是合成第一步,其次有同时在研究用模型来区分音频是否是合成出来的...
阅读全文 〉
头条合成是用的merlin吗, 有端到端的方案啊?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 没有用 merlin,这部分是自建的端到端的方案...
阅读全文 〉
有点好奇歌唱生成的音调韵律部分是怎么生成的,老师能简单介绍一下吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 这个算法上的问题超出我这边能解答的范围了,你有兴趣的话可以底下交流,我把你的问题给算法同学帮忙回答下...
阅读全文 〉
语音增强方面请问用的深度学习方案还是传统方案,能够进行实时的视频通话去噪么?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前线上模型训练数据用的更多还是传统方案,深度方案在实验中。通话去噪目前更多是结合前端处理方案在做。...
阅读全文 〉
请问小说合身这块,是不是用到了情感合成,和其他合成方案是不是不一样,另外实时音色转换有例子可以分享么?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 是的,有情感分析和合成的部分,也有角色分析。实时音色转换因为技术敏感性的问题不能分享例子,抱歉...
阅读全文 〉
目前合成用的是端到端的神经网络模型么?是自己设计的还是用已有方案呢?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 是端到端的,有自研优化的部分,另外声码器是纯自研的...
阅读全文 〉
字幕生成的话,除了中文,你们也在做多语种吗,有体验的API吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 也有英文的,目前暂时没有对外开放 API...
阅读全文 〉
请问音乐音转文模型和普通场景音转文模型一致吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 目前为了效果更好是分开的...
阅读全文 〉
问一下,是否有东南亚语系,如缅甸的老挞语的语音合成方案
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 暂时还没有
阅读全文 〉
我听说目前语音合成是真实人声+模型,是这样吗?
2020-05-28 13:59:51
字节跳动智能语音方向工程负责人司徒文畅: 你是指拼接或者拼接+参数方案,我们目前用的是纯参数的...
阅读全文 〉
asr识别全部是字节自己的算法识别的么。还是三方的
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 都是自研的
阅读全文 〉
语音识别数据集是请的人标注的嘛?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 是的,主要是标注,我们有自己的标注团队...
阅读全文 〉
视频配音的话,是读入整段视频呢?还是流媒体形式的?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 目前是整段的
阅读全文 〉
后面那个韵律也是自动生成的配音?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 目前还不是,是为了演示效果添加的,会是我们之后会做的一个功能点...
阅读全文 〉
请问这个视频字幕是离线先处理好的吗?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 实时的,可以自行到抖音或者剪映体验...
阅读全文 〉
也不是100%正确率是还是需要校对
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 是的,只是大大缩减了时间...
阅读全文 〉
单字同步可以做到吗?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 可以
阅读全文 〉
Asr引擎依靠的服务器计算资源是cpu还是GPU?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 字幕主要依靠GPU...
阅读全文 〉
目前asr实时率能做到多少。从效果来看确实很棒
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 一般RTF在0.1以内,得看模型...
阅读全文 〉
语音合成在视频配音场景有人用吗?用户使用频次高吗?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 视频配音后面会提及...
阅读全文 〉
这是靠类似ASR的技术,还是和曲库比对做的呢?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: ASR,没有做曲库对比...
阅读全文 〉
这个是联合背景音一起识别 还是单独上行啊?转写的标点符号呢,没看到呢?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 一起的,没有专门做分离;字幕场景目前是故意不加标点的...
阅读全文 〉
转写的标点符号没看到?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 字幕场景目前是故意不加标点...
阅读全文 〉
如果公司有大量的原始音频数据,如何筛选数据,以及起步去建立自己的模型?有哪些要素是必须要有的?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 我们一般把这个问题叫冷启动问题,其实对于冷启动还是有不少的方案,这里主要描述一个比较朴素的流程。因为是原始数据,要先进行标注,那首先要关心的是要筛选什么样的...
阅读全文 〉
如果一段音频有好几个人讲话,能识别出哪些话是第一个人说的,哪些话是第二个人说的吗?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 答案是可以,这里介绍两个方案,第一个是无监督的方案,就是可以把整段音频切分出很多小段,然后对所有的小段进行说话人的聚类,然后通过聚类的结果来判断有哪几个人,...
阅读全文 〉
在音乐检索领域,目前有没有“音乐转歌词”的相关研究和项目推荐?
2020-05-28 13:59:50
字节跳动智能语音方向工程负责人司徒文畅: 对于这个问题其实有两种理解,一种是你是想说通过音乐检索出它的歌词,可以直接用一个音频指纹的技术,根据这个片段先搜到是哪首歌,然后去曲库里面找对应的歌词。另外...
阅读全文 〉