数字媒体信息处理研究中心

学术交流

“MePro数字媒体信息处理研究中心”MIC研究小组在CVPR 2018 LIP 全球竞赛中获得三项冠军

2018年6月11日，北京交通大学赵耀教授团队和伊利诺伊大学香槟分校（UIUC）Thomas Huang教授团队组成的BJTU_UIUC竞赛队伍荣获计算机视觉领域顶级会议CVPR 2018 “Look Into Person” 国际竞赛（以下简称LIP）三项人体精细化解析竞赛单元（Track1：Single-Person Human Parsing，Track2：Multi-Person Human Parsing，Track5：Fine-Grained Multi-Human Parsing）的冠军。

LIP 2018国际竞赛专注于人体的精细语义理解任务，包括单人的人体解析任务、单人的人体姿态估计任务、多人的人体解析任务、多人的人体姿态估计任务、多人的精细化人体解析任务。LIP 2018是第二届举行，拥有大规模的像素级人体图像解析数据库、公平严格的评审标准以及国际性的竞赛影响力。获得冠军的团队将受邀出席在美国盐湖城召开的IEEE CVPR 2018会议，并展示竞赛技术、分享参赛经验。

BJTU_UIUC竞赛队伍的主要成员包括韦世奎教授领导的MIC研究小组在读博士生刘婷、阮涛和赵杰，以及UIUC的魏云超博士（2016年毕业于MePro团队，现为伊利诺伊大学香槟分校 Thomas Huang教授的博士后研究员）。BJTU_UIUC竞赛队伍参加了三项人体解析任务，并全部获得冠军。

单人的人体解析任务（Track1）要求将单人图像的人体在19种语义（如hair、face、coat等）上进行像素级的精细化分类，其挑战在于如何区分一些语义相近的parts，如果coat和dress，以及不同语义parts之间的边界。多人的精细化人体解析任务（Track2，Track5）则更具挑战性，其不仅需要克服单人的人体解析任务中的难点，同时还要区分出每个语义part具体来自于哪个instance（如coat应该属于person A还是person B）。在这种情况下，多人之间的相互遮挡和连接等问题就会为instance-level的精细化分割带来巨大挑战。

正如MePro的负责人赵耀教授所说，BJTU_UIUC竞赛队伍在这三项挑战赛上的成功，主要归功于所提出的PSPse分割模型。该模型同时具备了simple，effective和elegant 的特点，不依赖于任何模型融合以及任何额外的tricks。BJTU_UIUC的单PSPse模型在Track1上达到了56.5%的mIoU，该结果已经超过了目前所有的参赛队伍。通过三个模型融合，性能更是达到57.9%，并领先第二名3.46%。在Track2和Track5任务中，BJTU_UIUC首先利用Mask-RCNN定位出每个人的具体位置，进而结合所提的PSPse网络产生并融合出最终的结果。同样，在没有过多的模型融合的情况下，我们分别在Track 2和Track5上取得了 45.31%和33.34% 的精确度，分别领先第二名 3.81%和1.87%。