2.4B参数模型惊艳登场：小体积竟能驾驭30种语言视觉问答

AI快讯 3个月前 AI助手

84 0 0

德国Jina AI于2025年12月发布全新多语言视觉语言模型 jina-vlm，仅24亿参数却支持30多种语言，在MMMB多语言基准测试中以78.8分位居同规模模型榜首。该模型采用SigLIP2视觉编码器与Qwen3语言模型结合的创新架构，通过注意力池化连接器将视觉标记压缩75%，效率提升四倍；训练分两阶段进行，融合500万图像文本对和120亿文本标记，在DocVQA任务中达90.6分，英语性能媲美更大模型，且有效避免语言能力退化。其智能分块策略可处理高达1176×910分辨率图像，计算复杂度线性增长，为边缘设备部署铺平道路。