阿里千问新一代视觉模型Qwen3-VL在权威空间推理评测SpatialBench中以13.5分位居榜首,领先谷歌Gemini 3.0 Pro与GPT-5.1,逼近人类水平。该榜单涵盖2D/3D结构理解、路径规划等复杂任务,被视为具身智能的关键指标。Qwen3-VL新增旋转框与深度估计能力,遮挡场景识别准确率提升18%,支持草图或短视频生成可执行代码,并推出多规格模型,其中32项测试平均领先Gemini 2.5 Pro达6.4分。Qwen2.5-VL已开源,Qwen3-VL将于2025年第二季度开源,目前已在物流、AR装配等场景试点,定位精度低于2厘米。
技术突破显著,开源节奏清晰,落地进展迅速,国产视觉大模型正加速向具身智能迈进。
本文内容由开放的智能模型自动生成,仅供参考。
暂无评论...