AI
2024年9月末 AI 大事记
探索最新AI和科技动态:字节跳动豆包模型、Llama 3.2开源、World Labs获2.3亿美元融资、法国实时语音模型Moshi、英伟达NVLM 1.0、Meta AR眼镜,以及Evernote和Canva的最新策略。紧跟AI创新前沿!
99次点击10分钟阅读
模型
- 字节跳动的豆包大模型发布多款新品——视频生成、音乐生成以及同声传译大模型。
- Llama 3.2 开源,包含 4 种尺寸: 端侧的1B、3B,多模态支持的11B 和 90B,性能提升,最大上下文为 128k。
- 李飞飞创业公司 - World labs 又获 2.3 亿美元的新一轮融资
- 对标 GPT-4o 的法国实时语音模型 Moshi 开源
- 英伟达开源 NVLM 1.0 https://arxiv.org/pdf/2409.11402
应用
- Claude工程师聊prompt:不要把模型当小孩子、不需要角色扮演、实话实说 (qq.com)
- OpenAI 高级语音模式正式在移动端推出
- 保守派中间派原生派,谁将主导搜索引擎未来三十年? (qq.com)
芯片
- 消息:高通想收购英伟达,美投资公司阿波罗全球管理(APO)计划要向英特尔股权投资50亿美金
论文
- 谷歌发布 AlphaChips, 可以用 AI 设计芯片布局 https://www.nature.com/articles/s41586-021-03544-w
- Google DeepMind的研究人员发布了一种多轮在线强化学习(RL)方法 SCoRe,在完全使用自生成数据(entirely self-generated data)的情况下,显着提高了LLM的自我纠正能力。 https://arxiv.org/pdf/2409.12917
- 普林斯顿新基准CORE-Bench,主要关注模型在处理科研问题中的计算可重复/可复现性 https://arxiv.org/pdf/2409.11363v1
- 对其模型视觉与人类视觉层次 https://arxiv.org/pdf/2409.06509
- CoT 仅在数学符号推理领域有用 https://arxiv.org/abs/2409.12183
- AI 模拟宇宙结构 AI探索宇宙结构新突破!超精准场级模拟,半秒完成冷暗物质仿真 (qq.com)
- 德州大学等胸部X光数据集 https://ieeexplore.ieee.org/abstract/document/10632161
- 大型语言模型(LLMs)在新颖性上优于人类专家的想法,但在可行性方面略逊一筹,还需要进一步研究以提高其实用性。 https://arxiv.org/pdf/2409.04109
- GenAI在自适应系统中的现状与研究路线图 调研219篇文献,全面了解GenAI在自适应系统中的现状与研究路线图 (qq.com)
创投及新闻
- OpenAI CTO Mira 离职,除了正在休假的 Greg,创世团队只剩下 Sam Altman 一人
- Scale AI ARR 达到约 10 亿美元,创始人是 Alexandr Wang,近期开启了新一轮融资
- 根据 Indeed.com 数据,自2020年2月以来,软件开发岗位的招聘广告数量已经下降了超过30%。初级职位正在减少。
- Sam Altman 发布长文 The Intelligence Age (samaltman.com),再次声明超级智能触手可得。
- OpenAI 再获 65 亿融资,估值至1500亿美元
- Jeff Dean回忆谷歌趣事:吴恩达激励自己继续研究,Hinton曾是最强「实习生」 (qq.com)
硬件
- Meta 发布首款 AR 眼镜 Orion,能与Meta自研的肌电手环相适配,拥有手部跟踪、眼部跟踪、头部追踪等多种交互方式。
杂谈
Evernote
- Evernote
- 他们是怎么做的?
- 不想把 Evernote 完全摧毁重建,根据现有客户来翻新
- 任何一个功能都有人在用,没有一种翻新方案可以让所有人满意,这是一个棘手的平衡
- 多跟客户交流,他们会告诉你他们真正想要的东西。先尝试量化他们到底想要什么,然后量化有多少人想要,最后排一个重要性等级给需求排期。
- 以前的 Evernote
- 定位不清晰,ToC 和 ToB 都想要,但是都没做好
- 现在的 Evernote
- 主流用户画像有三类
- 归档者 - 在 Evernote 中保存一切,疯狂使用网页剪辑器
- 作家 - 写的笔记数量不多,但是写长笔记和复杂笔记,非常关系笔记的结构、写作技巧和可以添加到笔记中的内容
- 知识管理 - 希望将 Evernote 视为唯一的工具,希望自己的生活能运行在 Evernote 上
- 「记笔记」的定义非常广泛,因为每个人的需求和方法都不同。经过与数百名用户的交流,他发现没有两个人在应用中遵循完全相同的流程或系统。用户会根据自己的需求进行定制化。因此,定制化和提供多种工具都非常重要,以满足用户的多样化需求。
- Federico认为:要把用户想要的东西都做好,构建一个支持各种使用案例的产品,然后让用户去选择
- Evernote 限制了免费的功能,要做的就是向他们证明你能提供的价值远远超过了向他们收取的费用。
- 吸引新用户的不是 AI,是易用
- 主流用户画像有三类
- 他们是怎么做的?
Canva
- Canva 一开始的目标人群是没有很多专业技能的人群,但是我们早就发现专业设计师也有需求。
- 大家工作的时候,一边开着 Google Docs,一边开着 Canva,我就想,为什么不能把它们整合到一块儿呢?
- 我们现在的内部策略是真正实现本地化,切都能适应当地环境。比如在日本,我们有本地化的计费系统、本地化的模板和字体。
- (企业版本)是为管理员和 CIO 设计的,跟最初那种「为大团队协作」的想法有很大不同,现在更注重企业级的部署管理。
- 大家是为了高效达成各自的原本目的才使用 AI 的,AI 只是一个方法,一种提效的捷径。
- 设计需求在各个方面都大幅增加了,实际上,这十年里,设计的受欢迎程度和重要性可以说是大幅提升。
对话李飞飞 - World Labs 创始人
- 过去十年的重点是理解已经存在的数据,接下来的十年将是去理解新的数据。
- 语言从根本上来说是一种纯粹生成的信号,无论你输入什么数据,都是在同样的数据上进行泛化,输出同样的数据。
- 获得了智慧的智能生物拥有了在世界中互动、创造文明、甚至随心所欲地完成各种任务的能力。将这些能力转化为原生的三维技术,是释放潜在 AI 应用能力的关键。
- 如果能够实时、完美地理解周围的三维环境,会淘汰我们现在很多对物理世界的依赖。比如说手机、iPad、电脑显示器、电视,甚至还有手表。
- 机器人的交互界面天然就是三维世界。它们的大脑是数字化的,要将它们学习到的数据转化到现实世界中的执行,必将依赖于空间智能。
- 拥抱AI新时代的最大风险是无知。这里的“无知”不仅仅指不知道如何拼写“AI”这个词,而是指即使是一些非常有知识的人,在忽视细节和复杂性的情况下,以夸张的方式传达AI,这也是一种风险。
- 掌控和管理AI技术是人类的责任。不仅时间充裕,我们还有足够的控制权,不应该轻易放弃这种责任。
Anthropic 工程师谈 Prompt Engineering
- 提示工程的重点
- 工程来源于试错的过程
- 写一个清晰的任务描述,而不是尝试构建抽象的东西。
- 把事情讲得足够清楚,让模型明白你的任务是什么,并且擅长思考和描述概念。
- 一个好的提示词工程师
- 清晰的沟通
- 愿意迭代提示词并观察反馈来修正提示词
- 你需要进想清楚用户真正会输入的东西是什么
- 有些任务确实很难,你的每一次调整可能都让结果更加偏离目标。这种情况下,我倾向于放弃。
- 随着模型的能力越来越强,对世界的理解越来越深入,我觉得其实没有必要对它们撒谎。
- 很多人都没有理解什么是提示词。很多人看到一个输入框时,会把它当成一个谷歌搜索框,输入几个关键词。
- 模型可以理解复杂的信息,不需要过度简化。