科学研究

科学研究

学术交流

当前您的位置: 网站首页 - 科学研究 - 学术交流 - 正文

华中科技大学软件学院白翔教授应邀做客“三峡•天问大讲坛”

时间:2024-04-29点击数:

(通讯员 刘丽芳)4月27日上午,由我校科技发展研究院主办,计算机与信息学院承办的“三峡·天问大讲坛”第118讲在宜昌恒大酒店华夏厅举行。华中科技大学软件学院院长白翔教授应邀作了题为《多模态大模型的细节描述能力提升方法》的专题学术报告。计算机与信息学院院长任东主持报告会。学院100余名师生到会参与学习交流。

白翔教首先简单回顾当前同时处理和整合多种感知数据(例如文本、图像、音频等)的多模态大模型,指出虽然大型多模态模型(LMMs)在视觉-语言任务中表现出潜力,但在处理高分辨率输入和详细场景理解方面仍存在挑战。为了解决这些问题,其领衔的VLRLab团队研发了一个高性能多模态大模型“Monkey”。接着重点阐述Monkey模型通过提高输入分辨率和引入多级描述生成方法,解决现有模型在复杂场景和视觉细节处理方面存在的问题。最后,白翔教授表示,团队将继续优化Monkey 模型的感知、联想、推理和泛化能力,希望Monkey能在医学影像、卫星图像等领域发挥更广泛的应用。

会后,白教授与现场师生就计算机视觉、图像处理、文字描述及深度学习等相关问题进行了热烈讨论。此次报告会为我院师生提供了一个很好的学习机会,对激发学生专业兴趣和拓展科技视野起到了积极作用。报告会在欢快的氛围中圆满结束。


主讲人介绍:

白翔,华中科技大学教授,博士生导师,软件学院院长,国家杰出青年基金项目获得者,机器视觉与智能系统湖北省工程研究中心主任。主要研究方向计算机视觉与模式识别、文档分析等。已在计算机视觉与模式识别领域一流国际期刊和会议如PAMI、CVPR等发表论文80余篇。由于在场景文字检测与识别取得的显著成绩,2019年在国际模式识别协会主办的国际文档分析与识别会议上获得IAPR/ICDAR Young Investigator Award (青年学者奖)。现任期刊IEEE TPAMI, CHINA SCIENCE Information Science, IJDAR, Pattern Recognition, Frontier of Computer Science, 自动化学报, 中国图象图形学学报等期刊编委。曾担任CVPR、AAAI、IJCAI、ICPR等人工智能主流国际会议的领域主席/资深技术程序委员或竞赛主席十余次,并获得AAAI-2019 Outstanding SPC Award。2014-2020连续7年入选Elsevier中国高被引学者榜,2020年入选IAPR Fellow。