德国Jina AI于2025年12月发布全新多语言视觉语言模型jina-vlm,仅24亿参数却支持30多种语言,在MMMB多语言基准测试中以78.8分位居同规模模型榜首。该模型采用SigLIP2视觉编码器与Qwen3语言模型结合的创新架构,通过注意力池化连接器将视觉标记压缩75%,效率提升四倍;训练分两阶段进行,融合500万图像文本对和120亿文本标记,在DocVQA任务中达90.6分,英语性能媲美更大模型,且有效避免语言能力退化。其智能分块策略可处理高达1176×910分辨率图像,计算复杂度线性增长,为边缘设备部署铺平道路。
该成果标志着小型化多语言视觉模型取得关键突破,证明高效设计可媲美规模扩张。
本文内容由开放的智能模型自动生成,仅供参考。
暂无评论...