2024年10月第一周AI大事记
OpenAI DevDay 推出实时多模态 API,Pika 1.5 增强动作特效,谷歌推出 Data Commons 和 DataGemma,Liquid AI 发布 LFM,硬件和创投领域均有新动态。
模型
- OpenAI DevDay 发布 Realtime 实时多模态 API,提示词缓存,微调视觉模型。
- Pika 1.5 发布,新增更真实地动作和抽象搞笑特效(抖音病毒式传播预定)。
- 谷歌推出大型数据库 Data Commons 和大模型 DataGemma作为 AI 统计学家,使用 RIG 技术从数据库查询结构化查询带引用的数据。
- Liquid AI 发布液体基础模型 LFM,第一次有非 GPT 架构超越 Transformer,灵感最初来自于线虫的神经。
- 非 Transformer 架构的群体智能发布,Yan1.3 系列模型。
- 5秒内快速生成、直出工业级PBR资产,三维扩散模型3DTopia-XL开源
应用
- OpenAI 发布新交互界面,可以与 ChatGPT 一起协作,比如编程、写作、写邮件等。
- YC Demo Day 新项目发布(见杂谈)
- 谷歌的 NotebookLM 因为新功能爆火,可以上传文件并转换成一个双人对谈的播客,解放眼睛。
芯片
- 英伟达显卡 RTX 5090最新消息,CUDA核心数量提升33%,全新GDDR7架构,32GB显存,600W功耗(4090功耗450W)。
论文
- o1在不同医疗场景下进行了全面评估,性能提升很大 https://arxiv.org/pdf/2409.15277
- 评估 LLM 在测试基准PlanBench上的表现,o1-preview 表现大幅领先其他模型,完美解决原始 Blockworld测试集,但是在更长问题喝无解问题上依然表现较差。https://arxiv.org/pdf/2409.13373
- 长上下文能取代 RAG 吗?研究者在 EN.QA数据集上对比了无RAG方法和OP-RAG方法的F1和 Acc。https://www.arxiv.org/pdf/2407.16833
- 利用深度学习对绘画进行非侵入性研究 https://www.science.org/doi/10.1126/sciadv.adp6234
- Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale. https://arxiv.org/abs/2409.08264
- 多模态情感语音助手 EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion - https://arxiv.org/abs/2409.18042
- 系统性评估 o1 模型:Evaluation of OpenAI o1: Opportunities and Challenges of AGI - https://arxiv.org/pdf/2409.18486
- 字节跳动提出强化学习LLM Agent框架AGILE https://arxiv.org/abs/2405.14751
创投及新闻
- OpenAI Sora 负责人离职并加入 Google DeepMind。
- 风险投资人 Khosla 发文,预测AI时代会达到的一种乌托邦镜像,80%职业的80%工作可以被 AI 取代。
- 数学传奇「里奇流之父」Richard Hamilton 逝世,助力证明庞加莱猜想,奠定几何学发展基础
- 加州 AI 限制法案 SB-1047 被否。SB-1047规定,SB 1047将会通过追究开发者的责任来防止 AI 被滥用。
硬件
- 两位哈佛学生AnhPhu Nguyen 和 Caine Ardayfio 在推特上发布的一段视频,构建了一个只需要手机一张面部照片,就能识别出大街上任何人的眼镜。
杂谈
YC Demo Day 项目盘点
这次的夏季 Demo Day 一共持续两天,有近200家 AI 初创,占整体约75%。为适应当下 AI 创业速度,YC 也改成了一年4次 demo day。
PitchBook 技术分析师 James Ulan 意见:
- AI机器人项目越来越多
- AI 自主浏览网站、操作软件正成为新趋势。例如浏览器RPA等。AI 帮助人类完成生活中各种琐碎的小事,以前只能解决共性的大事,现在开始逐渐渗透进每分钟的生活。
- 一些专业领域也出现了 AI 的身影,比如建筑、医疗和警察。印证了之前提到的 AI 会渗透长尾场景。
- AI 开发工具越来越火热,比如部署微调LLM工具,提高 AI 应用效率,监控 AI 应用。
Noam Brown 在 LLM 推理上的研究
Parables on the Power of Planning in AI: From Poker to Diplomacy: Noam Brown (OpenAI)
在这个题为「关于 AI 规划力量的寓言:从扑克到外交」的演讲中, Brown 介绍了扑克、围棋和外交等游戏领域的研究突破,并尤其强调了搜索/规划算法在这些成就中的关键作用。之后,他也指出了搜索/规划研究在改进机器学习模型方面的潜在未来。
教程:从零构建 GPT 架构的文本分类器
从头开始构建一个 GPT 风格的 LLM 分类器:
[Building A GPT-Style LLM Classifier From Scratch (sebastianraschka.com)](https://magazine.sebastianraschka.com/p/building-a-gpt-style-llm-classifier#:~:text=And this book guides you,understanding of how LLMs work.)
阅读完本文,你将找到以下 7 个问题的答案:
- 需要训练所有层吗?
- 为什么微调最后一个 token,而不是第一个 token?
- BERT 与 GPT 在性能上有何比较?
- 应该禁用因果掩码吗?
- 扩大模型规模会有什么影响?
- LoRA 可以带来什么改进?
- Padding 还是不 Padding?
完整代码可以从 GitHub 找到:https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb