北京市科技装备业商会公共邮箱:btecc@btecc.org.cn
会员动态丨远鉴斩获FG2025普通话视听语音识别挑战赛赛道冠军
作者:
商会秘书处
时间: 2025-06-19
浏览量: 9
2025年5月,IEEE(电气和电子工程师协会)自动人脸和手势识别国际会议(IEEE International Conference on Automatic Face and Gesture Recognition 2025,FG2025)在美国佛罗里达州成功举办。远鉴在普通话视听语音识别挑战赛(Mandarin Audio-Visual Speech Recognition Challenge,MAVSR2025)赛道二中表现优异,提交的论文《Visual Keyword Spotting with Multi-Encoder for MAVSR2025》获得第一名。
FG2025是人脸识别及手势识别领域极具权威性的旗舰会议,由IEEE主办,致力于为全球人脸识别与手势识别的研究人员提供一个高规格的交流平台。该会议议题广泛,包括基础计算机视觉、模式识别、计算机图形学的进展;与面部、手势和身体运动相关的机器学习技术;行为科学和情感计算中的新算法和应用。推动VSR技术创新,应对复杂环境需求 近年来,计算机视觉领域的快速发展极大地推动了视觉语音识别技术(Visual Speech Recognition, VSR)的进步。视觉语音识别是一种通过分析说话者的面部动作、唇部运动、舌部姿态等视觉信息,实现语音内容理解的跨学科技术,不依赖于任何音频。VSR技术在公共安全、国家安全、辅助言语失能人士、活体检测等多领域具有广泛应用前景,当前许多研究主要集中在高质量数据集上,往往忽略了现实世界场景中诸多影响识别效果的关键因素,如低分辨率、大角度姿态、光线不足和图像模糊等实际挑战。 在此背景下,MAVSR2025通过设置低质量条件下的视觉语音识别(赛道一)和视觉关键词检测(赛道二)两个赛道,鼓励研究者探索在复杂、挑战性条件下拓展VSR技术的边界,促进更强大、更实用的解决方案。聚焦实际场景,创新方案提升关键词检测准确率 远鉴参与赛道二提供的数据集包含多种分辨率、光照条件和姿势变化,包含不同的性别、年龄分布的说话人,全面模拟了实际环境中视觉语音数据在质量和清晰度上的显著差异。
针对实际应用场景中复杂多变的干扰因素,远鉴研究团队提出了创新解决方案。通过引入高效的视频增强方法,充分利用视觉关键词识别中稀缺的视频数据。同时,研究团队还尝试了三种不同的视觉编码器架构来探索最优的特征提取方法。采用模型融合策略进一步增强了模型性能。实验结果表明,所提解决方案的改进策略对视觉关键字检索效果有不同程度的提升。 远鉴在MAVSR2025挑战赛中提出的技术解决方案,以论文形式在FG2025 Competition进行了宣讲和分享。在视觉语音识别技术的深度应用上,远鉴已经落地多个创新性产品。以远鉴打造的多维智能锁为例,该门锁融合“声纹+人脸+动态密码”复合识别技术,通过分析用户面部特征、声纹、唇动等多维度信息来进行精确的身份识别,实现精准高效的身份认证。该门锁能够在300ms内完成1:10000人脸认证和1:1声纹核验,显著提高了门锁认证的准确性和使用体验。
未来,远鉴将持续拓展视觉语音识别技术的边界,不断优化算法鲁棒性与适用性,依托在人工智能技术领域的丰富实践能力,打造更有效、更实用的解决方案,赋能行业应用。