普通话是没有问题的，就是方言的识别是不是非常困难？

提问

问题出自：大规模音频理解与合成解决方案及应用

普通话是没有问题的，就是方言的识别是不是非常困难？

2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：是的，如果要一门方言去建设基本就是耗费大量人力物力的事情，我们在探索的是端到端的方案。

回答

相关问答

如何保证大规模语音理解和合成的准确性和响应速度？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅首先分解下，先从准确性上去描述，然后再说响应速度的问题。准确性上其实识别跟合成稍微不同，识别可以分为声学模型的方案，还有语言模型的方案，声学模型主要是通过加数... 阅读全文〉
请问达到demo里的语音识别效果大概需要多少数据？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅： 10wh+，但具体多少不方便透露... 阅读全文〉
您提到的语音合成声码器部分是完全自研的，有可能介绍下吗？或者这部分成果有发表相关论文可以查阅学习下吗?
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：暂时没有发表论文，还处于技术保密期... 阅读全文〉
请问训练服务器用什么型号显卡？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅： V100，1080Ti 也有，但很少... 阅读全文〉
kaldi作为基础平台，用chain训练，对于新的说法，可以做增强吗？还是说需要全语料数据再次训练？如何更好持续提高识别精度
2020-05-28 13:59:51

冰逸：在kaldi里面chain模型是有提升，不过我们没用过这个模型，没在我们自己的数据试过... 阅读全文〉
请问端到端的合成韵律预测部分是什么方案呢？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：基于 BERT 的... 阅读全文〉
训练框架中，错误重试和断点续算那块是做到自动化了吗？如果可以做到，是如何做到的？利用MPI的机制？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：目前还是通过 checkpoint 来手动恢复，自动化的方案正在建设中... 阅读全文〉
如何利用多GPU如1080ti来提高模型的训练速度呢
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：目前有用 MPI 和 NCCL 的，单机用 NvLink 通信，多机用 RDMA... 阅读全文〉
有这方面的比较成熟的方案吗？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：这个问题我问下负责标点的算法同学，我暂时回答不了... 阅读全文〉
如何给语音识别结果打标点符号？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：这个就是 NLP 的模型了，你是想问具体的模型方案么？... 阅读全文〉
会议录音能自动识别并浓缩成会议纪要么？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：这是正在做的方向，需要有NLP方面的能力，包括同时翻译也是... 阅读全文〉
方言、外语小语种、多种语言混杂能否识别？实时性如何？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：目前主要还是中英的，其他的方言和小语种有部分在建设中，主要还是从需求出发。... 阅读全文〉
请问各种直播能实现实时识别并上字幕么?
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：可以的，我们内部的一些会议其实已经上了，效果正在持续打磨中... 阅读全文〉
请问拿到一段音频还能区别是真人语音还是合成的吗？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：首先做到以假乱真是合成第一步，其次有同时在研究用模型来区分音频是否是合成出来的... 阅读全文〉
头条合成是用的merlin吗，有端到端的方案啊？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：没有用 merlin，这部分是自建的端到端的方案... 阅读全文〉
有点好奇歌唱生成的音调韵律部分是怎么生成的，老师能简单介绍一下吗？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：这个算法上的问题超出我这边能解答的范围了，你有兴趣的话可以底下交流，我把你的问题给算法同学帮忙回答下... 阅读全文〉
语音增强方面请问用的深度学习方案还是传统方案，能够进行实时的视频通话去噪么？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：目前线上模型训练数据用的更多还是传统方案，深度方案在实验中。通话去噪目前更多是结合前端处理方案在做。... 阅读全文〉
请问小说合身这块，是不是用到了情感合成，和其他合成方案是不是不一样，另外实时音色转换有例子可以分享么？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：是的，有情感分析和合成的部分，也有角色分析。实时音色转换因为技术敏感性的问题不能分享例子，抱歉... 阅读全文〉
目前合成用的是端到端的神经网络模型么？是自己设计的还是用已有方案呢？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：是端到端的，有自研优化的部分，另外声码器是纯自研的... 阅读全文〉
字幕生成的话，除了中文，你们也在做多语种吗，有体验的API吗？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：也有英文的，目前暂时没有对外开放 API... 阅读全文〉
请问音乐音转文模型和普通场景音转文模型一致吗？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：目前为了效果更好是分开的... 阅读全文〉
问一下，是否有东南亚语系，如缅甸的老挞语的语音合成方案
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：暂时还没有阅读全文〉
我听说目前语音合成是真实人声+模型，是这样吗？
2020-05-28 13:59:51

字节跳动智能语音方向工程负责人司徒文畅：你是指拼接或者拼接+参数方案，我们目前用的是纯参数的... 阅读全文〉
asr识别全部是字节自己的算法识别的么。还是三方的
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：都是自研的阅读全文〉
语音识别数据集是请的人标注的嘛？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：是的，主要是标注，我们有自己的标注团队... 阅读全文〉
视频配音的话，是读入整段视频呢？还是流媒体形式的？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：目前是整段的阅读全文〉
后面那个韵律也是自动生成的配音？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：目前还不是，是为了演示效果添加的，会是我们之后会做的一个功能点... 阅读全文〉
请问这个视频字幕是离线先处理好的吗？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：实时的，可以自行到抖音或者剪映体验... 阅读全文〉
也不是100%正确率是还是需要校对
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：是的，只是大大缩减了时间... 阅读全文〉
单字同步可以做到吗？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：可以阅读全文〉
Asr引擎依靠的服务器计算资源是cpu还是GPU？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：字幕主要依靠GPU... 阅读全文〉
目前asr实时率能做到多少。从效果来看确实很棒
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：一般RTF在0.1以内，得看模型... 阅读全文〉
语音合成在视频配音场景有人用吗？用户使用频次高吗？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：视频配音后面会提及... 阅读全文〉
这是靠类似ASR的技术，还是和曲库比对做的呢？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅： ASR，没有做曲库对比... 阅读全文〉
这个是联合背景音一起识别还是单独上行啊？转写的标点符号呢，没看到呢？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：一起的，没有专门做分离；字幕场景目前是故意不加标点的... 阅读全文〉
转写的标点符号没看到？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：字幕场景目前是故意不加标点... 阅读全文〉
如果公司有大量的原始音频数据，如何筛选数据，以及起步去建立自己的模型？有哪些要素是必须要有的？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：我们一般把这个问题叫冷启动问题，其实对于冷启动还是有不少的方案，这里主要描述一个比较朴素的流程。因为是原始数据，要先进行标注，那首先要关心的是要筛选什么样的... 阅读全文〉
如果一段音频有好几个人讲话，能识别出哪些话是第一个人说的，哪些话是第二个人说的吗？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：答案是可以，这里介绍两个方案，第一个是无监督的方案，就是可以把整段音频切分出很多小段，然后对所有的小段进行说话人的聚类，然后通过聚类的结果来判断有哪几个人，... 阅读全文〉
在音乐检索领域，目前有没有“音乐转歌词”的相关研究和项目推荐？
2020-05-28 13:59:50

字节跳动智能语音方向工程负责人司徒文畅：对于这个问题其实有两种理解，一种是你是想说通过音乐检索出它的歌词，可以直接用一个音频指纹的技术，根据这个片段先搜到是哪首歌，然后去曲库里面找对应的歌词。另外... 阅读全文〉