• 首页
  • 博客
  • 项目
  • 留言墙

动态更新

喜欢我的内容的话不妨订阅支持一下 🫶
加入其他 7 位订阅者,每月一封,随时可以取消订阅。

© 2025 使用 Cali Castle 开源模板建立:GitHub

首页博客项目留言墙
总浏览量 1.8万
最近访客来自 Columbus, US🇺🇸
  • 1. 介绍
  • 2. 内容简介
  • 3. Tokenizer 和模型架构
  • 4. 预训练 Pre-training
  • 5. 后训练 Post-training
  • 6. 评估和跑分
「知识库」Qwen2 技术报告
2024/07/21知识库, AI

「知识库」Qwen2 技术报告

Qwen2 技术报告,总结了阿里巴巴集团千问团队发布的技术报告。为什么 Qwen2 性能这么好?他们做了什么来提升 Qwen2 的性能?

370次点击2分钟阅读

1. 介绍

  • 开源了一系列参数量0.5B到72B的基座和指令微调模型,包括一些稠密模型 dense models 和一个混合专家 MoE模型
  • Qwen2性能在所有指标上超过前代模型 Qwen1.5•旗舰模型是 Qwen2-72B
    • 主要原因是有了更多高质量数据集
  • 所有模型权重开源在 Hugging Face 和 ModelScope上,相关代码开源在 GitHub 上。

2. 内容简介

  • Tokenizer 和模型架构
  • 预训练 Pre-training
  • 后训练 Post-training
  • 评估和跑分

3. Tokenizer 和模型架构

  • Qwen2 和 Qwen 用的是相同的 tokenizer
  • Qwen2 稠密模型相比前一代区别:更新了注意力机制
    • 使用 Grouped Query Attention 而不是传统的 multi-head attention,优化 KV cache
    • 使用了 Dual Chunk Attention (DCA) 来扩展出更长的上下文窗口,将长序列分割成 chunks of manageable lengths
  • Qwen2 MoE 模型
    • 模型架构和 Qwen1.5-MoE-A2.7B 相同
    • Expert Granularity 相比 Mistral-7B 可以同时激活更多更小规模的专家,提升性能和适应性
    • 更灵活的 Expert Routing

4. 预训练 Pre-training

  • Qwen2的预训练有更多高质量数据集
  • 从原先的3万亿 token 扩展到了7万亿 token
    • 尝试使用更多但低质量的12万亿 token来预训练,但效果不好
    • 单纯增加数据量不会提升预训练质量,必须要高质量数据
  • 长上下文训练:从4,096token 扩展到 32,768 token
    • 因为有大量高质量、长的数据

5. 后训练 Post-training

  • 后训练用于提升在代码、数学、逻辑思维、遵循指令和多语言理解方面的专业度,用于对齐人类。
  • 后训练使用了人工标注筛选数据和合成数据。
  • 合成数据难点在于生产大量数据的同时保证标注质量

6. 评估和跑分

  • 相比 Llama-3,Yi-1.5,GLM-4,Mistral 和前代 Qwen1.5 各项跑分平均下来都处于领先地位 – 主要得益于高质量数据集。

相关文章

11月AI创新访谈精华:硬件、出海与创业破局全景摘要

2024/11/25AI63548分钟阅读

2024年10月中期 AI 大事记

2024/10/21AI22016分钟阅读

2024年10月第一周AI大事记

2024/10/04AI4666分钟阅读