谷歌宣布 Gemini 在 Chrome 浏览器中将不再需要会员费用,并开始向美国 Mac 和 Windows 用户推出。这是 AI 代理浏览器大战中的重要一步。
Chrome 中的 Gemini 能做什么?
新功能让 Gemini 深度嵌入 Chrome 浏览器:
- 屏幕理解:回答关于屏幕上内容的问题
- 多标签操作:跨多个标签比较产品、总结多来源信息
- 历史回忆:从浏览器历史记录中回忆之前访问的页面
- Google 服务集成:在 Gmail 中发送消息、创建产品比较表格、重新混合在线图像
Chrome 产品管理总监 Charmaine D’Silva 解释:「假设你在看团队建设活动,一天结束时——如果你想第二天继续,通常人们会保持这些标签页打开。但现在你可以关闭这些标签页,第二天早上说,『嘿,能给我看我昨天看的那些团队建设活动吗?』我们会自动显示。」
即将推出的代理功能
与 OpenAI 的 ChatGPT Agent 类似,谷歌也计划在未来几个月引入让 Chrome 中的 Gemini 能够代表用户执行「繁琐任务」的能力:
- 根据邮件中的购物清单进行杂货购物
- 重新安排配送
- 预约理发
- 预订餐厅
对于任何被视为「高风险」或「不可逆」的操作,系统都会设置检查点。谷歌尚未提供具体的发布日期。
移动端更新
在移动端,Gemini 已经集成到 Android 中,但用户现在可以分享整个页面的上下文,而不仅仅是当前屏幕上的内容,这样可以问「更深入的问题」。iPhone 用户将很快能够通过 Chrome 应用访问 Gemini。
AI 代理浏览器大战
浏览器中 AI 代理功能的改进已经持续了一段时间:
- Anthropic:去年推出 Computer Use,允许 Claude 作为 AI 代理使用浏览器并代表用户完成任务
- OpenAI:推出 Operator,设计用于做同样的事情,后来将 Deep research 和 Operator 合并为 ChatGPT Agent
- Perplexity:推出了自己的 AI 驱动浏览器 Comet
- Atlassian:以 6.1 亿美元收购了 AI 浏览器公司 Arc 的制造商 Dia
语言和地区扩展
谷歌还宣布 Gemini in Chrome 现在支持 50 多种语言,包括西班牙语、法语、印地语和中文。用户现在可以在加拿大、新西兰和印度访问 Chrome 内置的 Gemini AI 助手。
发表回复