AIAgent进入全新阶段:Claude新模型像人一样操作电脑,智谱AutoGLM自动操作手机App.pdf
计算机设备
行业动态报告
目录
一、行业变化1
二、持续关注标的6
三、行情回顾6
四、产业要闻9
五、重要公告10
六、风险分析11
请务必阅读正文之后的免责条款和声明。
计算机设备
行业动态报告
一、行业变化
1.1Claude3.5推出,性能最优,像人类一样操作电脑
10月23日,Anthropic推出全新的Claude3.5Haiku和升级版Sonnet。Sonnet的能力不仅全面超过GPT-
4o,更带来全新的AI体验:计算机使用能力,可以像人类一样操作电脑:移动光标、点击、通过虚拟键盘输入
等,标志着AI真正从聊天机器迈入使用工具解决问题的新阶段。
从图表1中可以看到,升级后的Sonnet在逻辑、知识、代码、数学、视觉、工具使用等几乎全方面都超过
了目前的最优模型GPT-4o和Gemini1.5。因为o1模型与传统的预训练模型的技术路线差异较大,因此并未放
入比较,但是也有其他研究者在推特上发布了自己的测评结果,Sonnet的性能优于o1-mini。
图表1:Claude3.5Sonnet超过GPT-4o,成为目前性能最强的模型(未与o1模型对比,因为技术路线差异较大)
资料来源:Anthropic,中信建投
除了性能以外,这次最让人惊喜的是Claude展现的全新能力:计算机使用。与过去AIAgent直接通过代码
请务必阅读正文之后的免责条款和声明。
1
计算机设备
行业动态报告
/程序,后台联网搜索/操作应用不同的是,这一次Claude真正像人类一样去使用电脑:先看屏幕,再使用鼠标
操作,再通过思考,重复以上步骤直到完成目的。在这个过程中,我们可以很明显的看到,Claude每一次截图
查看屏幕,移动光标/点选,并给出思考的全过程。
升级版的Claude3.5Sonnet现在对所有用户开放。开发者可以在AnthropicAPI、AmazonBedrock和
GoogleCloud的VertexAI上使用「计算机使用」的测试版进行构建。新的Claude3.5Haiku将晚些时候开放,
Haiku作为模型参数最小、速度最快的模型,已经在性能上超过了Claude3.0的最强、最大的Opus模型。
在演示中,Claude3.5Sonnet不仅可以理解多种人类的复杂任务,包括行程规划、分析数据、编写代码。
还可以根据任务内容,直接浏览电脑桌面上的文件,理解文件内容,操作浏览器查询,下载安装包,编写程序,
制作表格等。Claude会直接展示在电脑上操作的每一步,并给出对应的理由,当出现bug时,Claude还会尝试
不同的解决办法,真正熟练的使用电脑上的不同工具。
图表2是Ant