阿里云昨日公布了其多模态大模型研究的新进展,推出了升级版的通义千问视觉理解模型Qwen-VL-Max。这款模型在视觉推理能力和中文理解能力上都有了显著提升,性能表现堪比GPT-4V和谷歌的Gemini Ultra。
Qwen-VL-Max的升级主要表现在以下几个方面:
与LLM(大语言模型)相比,多模态大模型拥有更大的应用想象力。例如,研究者正在探索将多模态大模型与自动驾驶场景结合,为“完全自动驾驶”找到新的技术路径。此外,将多模态模型部署到手机、机器人、智能音箱等端侧设备,可以让智能设备自动理解物理世界的信息,或者基于多模态模型开发应用,辅助视力障碍群体的日常生活等等。
Qwen-VL-Plus和Qwen-VL-Max目前限时免费,用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型API。
总的来说,阿里云的通义千问多模态大模型Qwen-VL-Max在视觉推理和中文理解方面都展现出了强大的实力,其性能表现足以与GPT-4V和谷歌的Gemini Ultra相媲美。这将为用户提供更丰富、更准确的视觉信息理解和创作能力,推动AI技术在更多领域的应用和发展。