知识库, AI
「知识库」Qwen2 技术报告
Qwen2 技术报告,总结了阿里巴巴集团千问团队发布的技术报告。为什么 Qwen2 性能这么好?他们做了什么来提升 Qwen2 的性能?
132次点击2分钟阅读
1. 介绍
- 开源了一系列参数量0.5B到72B的基座和指令微调模型,包括一些稠密模型 dense models 和一个混合专家 MoE模型
- Qwen2性能在所有指标上超过前代模型 Qwen1.5•旗舰模型是 Qwen2-72B
- 主要原因是有了更多高质量数据集
- 所有模型权重开源在 Hugging Face 和 ModelScope上,相关代码开源在 GitHub 上。
2. 内容简介
- Tokenizer 和模型架构
- 预训练 Pre-training
- 后训练 Post-training
- 评估和跑分
3. Tokenizer 和模型架构
- Qwen2 和 Qwen 用的是相同的 tokenizer
- Qwen2 稠密模型相比前一代区别:更新了注意力机制
- 使用 Grouped Query Attention 而不是传统的 multi-head attention,优化 KV cache
- 使用了 Dual Chunk Attention (DCA) 来扩展出更长的上下文窗口,将长序列分割成 chunks of manageable lengths
- Qwen2 MoE 模型
- 模型架构和 Qwen1.5-MoE-A2.7B 相同
- Expert Granularity 相比 Mistral-7B 可以同时激活更多更小规模的专家,提升性能和适应性
- 更灵活的 Expert Routing
4. 预训练 Pre-training
- Qwen2的预训练有更多高质量数据集
- 从原先的3万亿 token 扩展到了7万亿 token
- 尝试使用更多但低质量的12万亿 token来预训练,但效果不好
- 单纯增加数据量不会提升预训练质量,必须要高质量数据
- 长上下文训练:从4,096token 扩展到 32,768 token
- 因为有大量高质量、长的数据
5. 后训练 Post-training
- 后训练用于提升在代码、数学、逻辑思维、遵循指令和多语言理解方面的专业度,用于对齐人类。
- 后训练使用了人工标注筛选数据和合成数据。
- 合成数据难点在于生产大量数据的同时保证标注质量
6. 评估和跑分
- 相比 Llama-3,Yi-1.5,GLM-4,Mistral 和前代 Qwen1.5 各项跑分平均下来都处于领先地位 – 主要得益于高质量数据集。