今日,阿里云通义千问(Qwen)宣布,经过数月的持续研发和优化,其AI开源模型系列已升级至Qwen2,并在Hugging Face和ModelScope上同步开源。此次升级不仅引入了五个尺寸的预训练和指令微调模型,还在多项性能上实现了显著提升,包括代码和数学能力的增强,以及对更长上下文长度的支持。
Qwen2系列包括五个不同尺寸的模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B,这些模型在参数量、非Embedding参数量以及上下文长度上均有所不同,以满足不同场景下的需求。特别值得一提的是,Qwen2-72B-Instruct模型的上下文长度支持最高达到了128K tokens,为用户提供了更加广阔的文本处理空间。
在训练数据方面,Qwen2系列在中文和英语的基础上,增加了27种语言相关的高质量数据,从而大幅提升了模型的多语言能力。同时,所有尺寸的模型都采用了GQA(Gradient-based Quantization Aware Training)技术,该技术能够显著加速推理过程并降低显存占用,为用户提供更加高效和稳定的模型使用体验。
在模型评测方面,Qwen2系列在大规模模型上实现了非常大幅度的效果提升。尤其是Qwen2-72B模型,在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。这一成果充分展示了Qwen2系列在AI模型研发领域的领先地位和强大实力。
阿里云通义千问作为阿里云旗下的AI开源项目,一直致力于推动AI技术的创新和发展。此次Qwen2系列的发布,不仅为用户提供了更加先进和高效的AI模型,也进一步彰显了阿里云在AI领域的技术实力和创新能力。未来,我们期待通义千问能够继续推出更多优秀的AI模型和技术,为AI领域的发展贡献更多的力量。