AI
2024年10月中期 AI 大事记
This article summarizes recent developments in AI, venture capital, and hardware. It covers LangChain founder's insights on designing Agent interactions, the development of NotebookLM, YouTube's commercialization journey, and a16z Games' accelerator project pitches.
37次点击16分钟阅读
模型
应用
- LangChain创始人教你设计 Agent 交互(见杂谈)
- “胃之书”开发者的AI新产品来了!陌生人闹钟,让随机的陌生人叫你起床
- 语言学习 App 多邻国发布了他们的 AI 功能:AI 视频通话、模拟 RPG 游戏的场景化口语练习 Adventure
- NotebookLM核心负责人访谈: 项目不到 10个人,体验惊艳全球,但它还只是个技术demo(见杂谈)
- Kimi在应用中加入了AI搜索
- Windows版ChatGPT上线
创投及新闻
- a16z Games 旗下 SPEEDRUN 加速器在美国旧金山有 32 个项目路演(见杂谈)
硬件
- 著名科技媒体 The Verge 的主编 Nilay Patel 采访了 Rabbit 创始人吕骋(见杂谈)
杂谈
回顾YouTube的商业化之路
现状:
- YouTube 月活 27 亿,比抖音和 TikTok 加起来的月活还多,去年实现315亿美元营收
- YouTube 工程副总裁古德罗认为,从逻辑上讲,人们在 YouTube 上逗留的时间越长,说明他们越快乐。「这是一个良性循环。」,因此他在电子邮件中写道,「在所有其他条件都相同的情况下,我们的目标是增加观看时长。」
- YouTube 的推荐算法是经过多次迭代的,最早期只会优化「共同访问」:当有人点击了一个视频,在页面的右侧,即「相关视频」部分,就会出现其他点击过同一个视频的观众看过的其他视频,喜欢这个视频的人往往也会喜欢那个视频。但这种算法只会让相关视频剩下胸和屁股,于是它们在算法中加了更多的元素。
- Youtube 一开始也不知道怎么商业化,于是尝试了很多种广告方式,比如小型广告牌广告、品牌主页服务、颁奖典礼赞助、植入广告等,但很多模式都没法快速复制,这对于互联网公司来说,是致命的,最终折腾出目前这套广告投放模式。
- 最早的广告插入机制是硬编码的,比如如果观众看到了英格丽·尼尔森的这段视频,那么就播放那个广告。机器学习系统则会自己学习,检测数据中的归来吧,例如,识别照片中的人脸或视频中的小细节来觉得放不放广告。原本广告和播放时长两者不能同时增加,是对立的。而机器竟然找到了一种方法,在播放更多广告的同时,也增加了观看时长。
- Youtube 一开始也不知道怎么管理创作者,曾任 Youtube CEO 的卡曼加借鉴了有线电视的理念,YouTube 用户不应该注册「账号」,这是一个互联网 2.0 术语,他们应该拥有的是「频道」。Youtube 频道使最小的细分市场也能在 YouTube 上生存,甚至可以吸引最狭隘的利益群体。YouTube 博主拥有个人频道,那么赞助了很多频道的公司——也就是 MCN,自然而然就诞生了。
- YouTube Shorts,是一个应对 TikTok 的防御行为。「Shorts」算法的主要指标仍然是观看时长。
LangChain 创始人万字科普:手把手教你设计 Agent 用户交互
- 最主流的 UX 是「流式聊天」,比如 ChatGPT。
- 如果用户建立了对智能体的信任,可以使用非流式聊天。如何让建立用户对智能体的信任?(1)把每次操作展示给用户。(2)让他们能够纠正智能体的操作。用户可以在工作流中途暂停,提供反馈,然后让智能体继续执行。例如 Devin - AI 软件工程师
- 如果你正在构建一个任务特定的智能体,定制认知架构将是必不可少的。这也是我们对 LangGraph 未来充满信心的原因。
- 三种交互体验
- 不一定需要流式聊天,可以探索非流式,和流式之外的UX形式
- 后台运行也可以建立用户信任
- 电子表格、生成式和协作式 UI
- 电子表格用户体验是支持批量处理工作负载的超级直观且用户友好的方式
- 生成原始 HTML 代码,或通过调用工具映射到预定义 UI 组件上
- 协作式UX,当智能体和人类一起工作时的样子。比如与 LLM 合作编写文档,
a16z Games 旗下 SPEEDRUN 加速器项目路演
- 路演在项目层面上,我们看到了一批比以往几届成熟度更高,思考更深刻的创业团队,参加路演时他们已经有较好的资金储备和产品完成度,这意味着即便VC资金供给不是那么‘火爆’,多数项目也能走下去。
- 32家中,11家与AI深度结合,5家尝试寻找 AI 时代流媒体新玩法,3家推动 VR 游戏发展。
https://mp.weixin.qq.com/s/wXFrAlkzP6L_O2Wa48bW0g
爆款 AI 硬件 Rabbit 创始人吕骋访谈
- R1 售价 199 美元,吕骋表示硬件利润率超过 40%,每台大约 80 - 90 美元。但用户使用云服务和模型都不需要额外付费,简单计算,至少硬件利润足够支撑用户使用 1.5 年以上。「我们绝对不想收取订阅费,我认为这样的想法是非常愚蠢的。」
- R1 没有调用 Spotify 等产品的 API,而是通过虚拟机访问 Spotify 网页,登录用户的账号,「点击听歌按钮」,Uber 等其他服务也是一样。这一模式可以绕过应用平台的 API 规则,与使用 API 模式的智能音箱有很大的不同。吕骋表示在公司还早期的阶段,很难像 Alexa(亚马逊)一样与其他应用平台协商 API 服务。
- Rabbit 很「幸运」,没有任何创业公司的竞争对手,同样爆火的 Humane 胸章几乎被(评论家门)彻底宣判死刑。谈及面对硬件大厂的竞争,吕骋表示,至少到 2025 年春天,竞争会聚焦在不同的能力上,A 产品和 B 站产品在做不同的事,而不是同样一件事比谁做得更好。他判断这个窗口期大概还有 8 个月。Apple 在身后。
- Humane 的 AI Pin 想法很酷,但风险太大。它为用户提供了一个新界面来使用软件,而大部分人都不太愿意用科幻类型的设备,将两种新事物叠加在一起太冒险。因此,R1 的硬件形态非常保守,在某种意义上降低了软件的风险。
- 硬件设计不能跑得太快,要尽量保守。
NotebookLM核心负责人访谈
- NotebookLM 的音频功能,出发点依然是为锤子找钉子。语音技术影响了负责人对 AI 技术的理解和认知,她为语音找到了现在这个应用场景。NotebookLM 不是真正的「落地应用」,它是一个落地可能性的 demo。对 Google Labs 来说,它真的只是找钉子,不需要钉子赚钱。——ChatGPT 诞生时也是一样。
- 当有人利用 NotebookLM 的能力「越狱」生成恶搞内容时,负责人整晚睡不着家,这对她的工作、对 Google、对行业会造成怎样的负面影响?担惊受怕一晚上。
- NotebookLM 的很多想法启发来自于对于知名专栏作家、笔记产品狂热用户 Steven Johnson 工作流程的深度观察,团队一直在践行的一点是:多观察用户行为,思考如何与用户或人们真正相处一段时间。
- NotebookLM 最主要的用例其实是很多学生将学习资料或者论文转换成音频指南。但大家最喜欢的是把个人简历或者季度 Review 传上去,听听 AI 怎么花式夸自己。
- 不要追求完美发布。先推出产品的基础可用版本,然后根据用户反馈不断迭代优化。这种策略能帮你发现意料之外的见解和用户需求,从而更好地打造最终产品,也就是 Build in Public。
- 在大型组织内拥抱创业心态:Google Labs 比典型的 Google 团队运作时有更少的流程和更多的敏捷性。这使他们能够更快地行动并快速迭代,很像一个创业公司。
- 团队的未来预期是:能够拥有一款 AI 编辑界面,可以完全重新组合,支持任何输入和输出。无论是视频、音频、电子邮件、LinkedIn、Twitter,任何我们关心的东西,你都有一个 AI 界面,可以生成任意格式的内容。让用户自己决定想要消费的内容形式。
红杉资本:套壳才是应用层王道,o1改变了大模型行业,年度行业报告更新
https://www.sequoiacap.com/article/generative-ais-act-o1/
- 如果是编程,可以测试代码的正确性。但如果是评估一篇文章的初稿、制定旅行计划或总结文件的关键术语,该如何打分呢?这就是推理在目前技术中的难点,也是 Strawberry 在逻辑领域(如编程、数学、科学)表现强大,但在较为开放的领域(如写作)表现相对不足的原因。
- 对于 AI 来说,处理这些高难度的、有意义的问题,必须超越快速的「样本内」响应,花时间去进行深度推理,这也是推动人类进步的关键。
- o1 论文则揭示了另一个全新的扩展维度:你赋予模型的推理时间(或称「测试时间」)越多,模型的推理能力就越强。
- 生成式 AI 市场早期曾有一个假设:某个单一的模型公司将变得极其强大,足以整合所有其他应用。然而,到目前为止,这一预测被证明是错误的。
- 两年前,许多应用层公司被嘲笑为「只是 GPT-3 上的套壳」。如今,这些套壳被证明是构建持久价值的唯一可靠方法之一。最初的「wrappers(套壳)」已经演变成「认知架构」。
- 现在出现的趋势是,首先将 AI 作为辅助驾驶(human-in-the-loop)部署,并通过这些使用机会逐步积累经验,最后实现全自动化部署(无人工参与)。GitHub Copilot 就是一个典型案例。
- 如果 AI 带来的变革与 SaaS 类似呢?AI 的机会是否不仅仅是「销售工作」,还有可能取代现有的软件?
- 在特定领域中,获取真实世界的数据并构建领域和应用特定的认知架构仍然是一个巨大的挑战。这意味着,在解决现实世界中多样化问题时,「最后一公里」的应用提供商可能更具优势。
导演、 DJ、科幻作家讨论AI与创作,AI陪伴的终极是人类爱上AI吗?
9 月 13 日,Ultra HongKong 的主办方 Zebra Labs 和拥有超过 350 万订阅用户的商业科技媒体声动活泼组织了一场 AI 与内容创作的闭门讨论。
- AI 这样的工具只能在你音乐创作中起到辅助的作用,但不能完全替代你。
- 我认为挑选和修复 AI 创作的不成熟的音乐片段也是创作的一部分。你依然是在基于你的品位做选择。
- AI 让不同背景的艺术家更快速、方便地表达他们的想法。所以最终还是看创作出来的作品能否打动观众。
- 人们会喜欢 AI 生成的内容,这已经通过算法得到了证明。但这是否算是好音乐呢?我不太确定。
- (虚假新闻)不是人与 AI 之间的战争,而是人类之间利用工具互相竞争的战争。
- 人类与 AI 发生感情不在于何时,而在于人们会多深地爱上 AI。
- 也许 AI 并不是「它们」,而是我们的一部分,可能是我们下一代的延伸。
- 原生于 AI 时代的这一代人与我们这一代人会有很大的不同。我们建立了人与机器之间的持续互动的循环,这基本上改变了我们感知世界的方式、思考的方式、沟通的方式,甚至可能也改变了我们自我观察的方式。