下载app免费领取会员
2024年7月20日,在中国图学学会第七届“奋发图强”青年科学家论坛召开期间第三届图学感知与认知计算论坛暨中国图学学会“奋发图强”青年人才学术沙龙2024年度第二期(总第22期)在大连成功举办。主题为“多模态内容感知与生成”。
本届论坛由第九届中国科协青年人才托举工程入选者、浙江大学罗亚威研究员和北京工业大学王博岳副教授担任论坛主席,邀请到了中科院自动化所董未名教授、北京航空航天大学李帅教授、中山大学任文琦教授、中科院自动化所刘振宇教授、北京航空航天崔志勇教授、浙江大学彭思达研究员与中山大学苗嘉旭副教授等知名专家,围绕多模态内容感知与生成,就最新的理论发展、技术创新及应用实践进行深入交流与探讨。
首先,中国科学院自动化研究所董未名研究员以“绘画中的AI”为主题,着眼于随着多模态大模型和扩散模型技术的迅速发展,由人工智能生成的绘画作品在艺术性和内容丰富度方面都有了极大的提升的趋势。他回顾了AI绘画技术的发展历程,介绍图像/视频风格迁移、文字引导的艺术图像/视频生成和多模态信息引导的艺术图像/视频生成等AI绘画技术的基本原理,并展示由相关技术生成的美术作品。另外,还探讨AI绘画与人类艺术家创作之间的关系,并对AI绘画技术未来的理论研究和应用发展方向进行展望。
中国科学院自动化研究所董未名研究员作报告
随后,北京航空航天大学李帅教授介绍了图学在医疗领域方面的进展。针对在临床问诊和检查仿真过程中,需构建高逼真的虚拟标准化病人,并使其呈现出指定病症的行为。他主要从人物再识别、人体动作识别、双人交互行为理解、文本驱动的行为生成、人与物体交互行为生成、个性化人物行为生成、情境化的多模态交互行为生成等方面对相关研究成果进行介绍,并介绍相关技术在虚拟标准化病人方面的医学应用案例。
北京航空航天大学李帅教授作报告
第三,中山大学任文琦教授带来了图像修复方面工作的介绍。传统的基于RGB图像的单一模态视觉模型在恶劣成像环境下,由于硬件信息捕捉的局限性,难以生成信息完备的图像内容,影响下游感知任务的准确性。因此,如何融合信息互补的多模态内容并处理和恢复退化的单一模态信息成为亟待解决的技术问题。本报告从光学相差矫正、多曝光融合、视频去雨、图像去雾、暗光图像去噪五个方向,研究以RGB图像、事件数据、近红外成像、深度图、多曝光图像、位置嵌入为代表的多模态内容,深入探讨了基于多模态融合的图像处理与恢复技术。
中山大学任文琦教授作报告
第四,中国科学院自动化研究所中国科学院分子影像重点实验室的刘振宇教授介绍了医疗辅助诊断方向的最新进展。他的工作利用人工智能方法,结合医学影像宏观信息和病理图像微观信息,构建面向新辅助治疗效果评估的医学信息系统,辅助临床医生对新辅助疗效进行精准预测评估具有重要价值。相关医学信息系统已在多中心临床大数据进行验证,并开发了辅助诊断系统软件,在多家医院开展了临床试验验证,为探索医学影像人工智能方法的临床应用提供了新思路。
中国科学院自动化研究所中国科学院分子影像重点实验室刘振宇教授作报告
第五,随着自动驾驶技术的不断进步,融合感知技术在提高车辆环境感知能力和决策准确性方面发挥着重要作用如何从多视角多源数据中获取精准的自动驾驶场景感知信息,并生成复杂自动驾驶场景以辅助决策与测试仍是当前重要挑战。北京航空航天大学崔志勇教授的报告简要探讨了自动驾驶领域中的BEV感知技术,多模态数据融合、三维占据感知以及自动驾驶场景的生成能力。
北京航空航天大学崔志勇教授作报告
第六,物理世界仿真是对人们日常生活进行真实、立体、时序化反映和表达的数字空间。传统多视图重建算法是构建数字三维世界的重要工具。然而,传统重建算法依赖精细的数据采集过程,并且难以处理复杂动态场景。浙江大学彭思达研究员针对这些挑战讲述了基于多视图几何和先验学习等思想,在相机位姿估计、场景重建以及物体生成三方面提出了新技术,提升了场景仿真的质量与效率。
浙江大学彭思达研究员作报告
最后,随着多媒体和网络技术的迅猛发展,海量的图像.视频、文本等多媒体数据快速增长,以视频为中心的跨媒体分析、理解和推理成为人工智能研究的一个重要而具有挑战性的问题。中山大学苗嘉旭副教授带来的报告重点关注文本-视频跨媒体理解和推理技术,他介绍了基于语言查询的视频时空定位技术以及细粒度的视频理解方法,之后探讨了视觉语言跨模态场景下智能机器的演绎推理和事件预测能力。
中山大学苗嘉旭副教授作报告
报告结束后,各位研究专家与参会人员对共同感兴趣的领域和问题进行了沟通互动和交流,分享彼此见解。论坛主席为各位演讲嘉宾颁发了证书。
本文版权归腿腿教学网及原创作者所有,未经授权,谢绝转载。