【天风海外】草莓发布值得关注的是什么?

1、架构——Deepmind和OpenAI最早研究大幅延长test time compute来提升模型系统能力100倍以上的路径,从去年开始,Deepseek、Multion等多个创业公司尝试MCTS、Beam Search、best of N*,乃至在LLM阶段动态更新价值函数和政策函数的路径。不同路径均会提升计算量需求3-20倍以上,但推理架构、序列或平行推理、与对CPU需求则截然不同。
2、定价——据Information报道,由于推理性能需求的延长,OpenAI考虑过多种草莓的定价方案,最昂贵的包括一个月2000美元。根据ChatGPT网页代码,其已经给新定价方案在web端留出空间,但尚不确定。
3、推理时间——上周四晚上开始,多名ChatGPT用户反馈在回答中偶尔收到A/B推送,其中一种会延后10-30秒钟再开始回答,并且更加详细和准确,但在开始之后,推理速度和另外一种基本一致。实际的test time compute带来的推理时间如果产品化值得关注
4、是否有其它能力发布——OpenAI更新了Chat GPT App的框架,根据此前Information报道,OpenAI希望逐步推出浏览器交互,桌面交互的Agent能力。但目前尚未有用户反馈拿到灰度测试。此外分屏形态,Agent+创作工具能力等值得关注。
5、推出时间——(北京时间)本周9月10日苹果发布会,下周9月17日微软发布会,草莓发布时间部分提到可能在这周发布。
6、对实际收入的影响——考虑到当前OpenAI的年化收入接近40亿美元,我们认为对于OpenAI/MSFT AI年化收入几个核心的数字为100亿美元,基本接近于明年Azure 因为AI加速3-4pct 所对应的收入 ,200亿美元的AI D&A+电费,以及900亿美元的Capex。我们认为如果新产品带来月度上当前月活(4亿)、付费率(约为3.1%)、ARPU(20美元/月)各自10%的额外增长,则对应收入额外增长33.1%左右,总收入幅度比较类似于3.5到4或者4ovoice mode带来的单月收入增长。也对应着此后半年收入+100%左右的自然轨迹。如果新产品能带来80%首月收入环比增长,则后续一年内自然增长带来的年化收入方可能超过200亿美元。
7、能力——尽管头部AI Lab中,如微软CTO Kevin Scott表示也存能力达到Phd级别的系统,如谷歌Alphaproof达到IMO银牌的LLM+Trnasformer+MCTS系统,但实际发布的系统的能力和推理的取舍依然值得关注。
MMLU等区分度减少,对于任务的评测更值得关注。以OpenAI最新采纳的SWE Bench Verified benchmark for agents为例,目前领先的Agent如Honeycomb可以用一个小时达到30%左右的正确率。我们认为如果新型Agent可以在30分钟之内达到70%以上的正确率算是本质提升。而对于通用任务(如电商,订餐),在1分钟之内达到95%以上正确率为是本质提升。

发表评论