- 课程回放

华南理工大学金连文老师组博士生,主要研究场景文本检测与识别问题。在知名期刊/会议上发表多篇论文,包括5篇CVPR论文(4位第一作者),其中一篇是CVPR2020的满分论文。热衷开源,许多研究项目都是开源的,对研究社区和行业产生了一定的影响。曾获得过5项国际竞赛冠军,并积极与百度、阿里巴巴等高科技公司合作,共同举办了ICPR 2018 MTWI、ICDAR 2019 ArT、ICDAR 2019 LSVT等国际知名赛事。

华南理工大学金连文老师组博士生,主要研究场景文本检测与识别问题。在知名期刊/会议上发表多篇论文,包括5篇CVPR论文(4位第一作者),其中一篇是CVPR2020的满分论文。热衷开源,许多研究项目都是开源的,对研究社区和行业产生了一定的影响。曾获得过5项国际竞赛冠军,并积极与百度、阿里巴巴等高科技公司合作,共同举办了ICPR 2018 MTWI、ICDAR 2019 ArT、ICDAR 2019 LSVT等国际知名赛事。
- 端到端场景下的文本检测及识别的研究与挑战
- ABCNet:基于贝塞尔曲线的任意形状文本端到端检测及识别方法
- 场景文本端到端检测及识别的应用
OCR(Optical Character Recognition, 光学字符识别)是指对输入扫描文档图像进行分析处理,进而识别出图像中文字信息的技术。而场景文本检测与识别,是指识别自然场景图片中的文字信息。由于在计算机视觉中的广泛应用而受到越来越多的关注。但尽管最近取得了巨大的进展,由于其在大小、长宽比、字体样式、透明失真和形状等方面的多样性,检测与识别野生文本在很大程度上还未解决。
近年来,许多端到端方法显著提高了任意形状场景文本定位的性能。然而,这些方法要么使用基于分段的方法来维护复杂的管道,要么需要大量昂贵的字符级标注。此外,几乎所有这些方法推理速度都很慢,妨碍了实时应用程序的部署。因此,如何设计一个简单而有效的端到端框架,用于在图像中定向或弯曲的场景文本定位,并在确保快速的推断时间的同时,同达到了与最先进方法相媲美甚至更好的性能的方法非常关键。
ABCNet,是一种端到端的、基于贝塞尔曲线并可识别任意形状的场景文本识别网络。8月3日晚8点,智东西公开课邀请到阿德莱德大学博士后、ABCNet一作刘禹良参与「CV前沿讲座」第12讲,刘博士将围绕《ABCNet-端到端可训练任意形状的实时场景文本识别网络 》这一主题进行直播讲解。从端到端场景下的文本检测级识别的研究与挑战出发,对ABCNet,基于贝塞尔曲线的任意形状文本端到端检测及识别方法进行深入讲解,并介绍一下场景文本端到端检测及识别的应用。
刘禹良是阿德莱德大学博士后,华南理工大学金连文老师组的博士生,主要研究场景文本检测与识别问题。刘博在知名期刊/会议上发表多篇论文,包括5篇CVPR论文(4位第一作者),其中一篇是CVPR2020的满分论文,也是ABCNet的第一作者。同时刘博也热衷于项目开源,本人有许多研究项目都是开源的,对研究社区和行业产生了很大的影响。他也曾获得过5项国际竞赛冠军,并与百度、阿里巴巴等高科技公司合作,共同举办了ICPR 2018 MTWI、ICDAR 2019 ArT、ICDAR 2019 LSVT等国际知名赛事。