- 课程回放
博士毕业于南京理工大学,师从国家杰青唐金辉教授。目前与Kwang-Ting (Tim) CHENG教授合作;研究兴趣集中在机器学习、计算机视觉和医学图像分析,具体包括深度网络结构设计、语义分割、目标检测及其应用。 在这些领域,已经发表多篇期刊和会议论文,包括IEEE Trans Cybern、 PR、AAAI、ACM MM、IJCAI、ECCV、ICCV和NeurIPS等。
- 像素级语义图像识别的研究现状与难点
- 面向复杂场景的像素级语义图像识别局限性
- 用于图像解析的新型图推理Transformer框架GReaT
- 像素级语义图像识别的应用前景与发展趋势
像素级语义图像识别是一项基础且重要的计算机视觉任务,与图像级语义相比,像素级语义理解致力于探索图像中所包含的每一个像素互相之间的作用机理,是一种逐个像素理解图像语义信息的机制。像素级语义具有输出数据量大、逐像素输出精度高的优点。
在面对一些复杂的图像时,通常会将输入图像切片为大量指定大小的小块,然后依据指定的数量进行聚类,接着使用聚类得到的带类别信息的图像小块训练神经网络提取深度特征,最后对每个图像小块的深度特征进行处理。但这种方法整个流程的效率较低,而且只能处理指定尺寸图像,无法自由处理任意大小图像。
而采用注意力机制的方法可以有效的解决上面的问题。Transformer是目前最火的基于自注意力机制的神经网络架构之一,但基于自注意力机制的图像块交互可能存在类内块的冗余交互和类间块的无向交互的问题。
香港科技大学张冬博士等人提出了一种用于图像解析的新型图推理Transformer框架GReaT,使图像块能够按照关系推理模式进行交互。具体来说,GReaT框架首先将图像块投影到图空间中,其中每个节点代表图像块簇的隐式视觉中心,每条边反映两个相邻节点之间的关系权重。之后,在该图上执行全局关系推理。最后,将包括关系信息在内的所有节点映射回原始空间以供后续处理。与传统的 Transformer相比,GreaT具有更高的交互效率和更有目的性的交互模式。
8月17日晚7点,「AI新青年讲座」第147讲邀请到香港科技大学博士后研究员张冬参与,主讲《基于图推理Transformer的像素级语义图像识别》。