Claude 3.5 Sonnet: Computer use

Liz大约 2 分钟

1. About

公司：Anthropic

官方文章：

官方演示视频：

https://www.youtube.com/playlist?list=PLf2m23nhTg1NcDu3_eZavbTJ3Dow9QQRB

代码实现：

https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

Claude3.5性能测评结果：

在 OSWorld 中，Claude 3.5 Sonnet 在纯截图类别中获得了 14.9% 的评分。

支持通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI进行调用

像人类一样使用计算机--观看屏幕、移动光标、点击按钮和输入文本。

提高安全性
降成本
提速度
降低错误率，提升可靠性
支持更多操作
- 如拖拽、缩放等操作还不支持
视觉大语言模型（VLM）的性能提升
- 目前的VLM普遍存在“近视眼”现象，它们从图像中只能提取出近似和抽象的视觉信息，并不像人类一样真切的看到图片
改变观察屏幕截图到更细粒度的视频流
- Claude观察屏幕通过截图，是 “翻书 ”式的，即截图并拼凑在一起，而不是观察更细粒度的视频流，这意味着它可能会错过短暂的操作或通知。
视觉和代码操作的结合
- 光靠视觉，速度提升不上来，准确度也不够