Skip to content

别光盯着GPT和Claude了,马斯克的"虚拟员工"要来了

你有没有这种感觉:AI助手越来越强,但总觉得它们还是"嘴强王者"——能说会道,但一到真正干活就歇菜?

ChatGPT能帮你写代码,但不会帮你打开IDE帮你调试。Claude能分析代码逻辑,但不会帮你提PR、跑测试。AI永远停留在"给建议"的阶段,真正动手的还是你自己。

马斯克觉得这事不对劲。他带着xAI要改变这个现状。

Grok Computer:马斯克版"自动驾驶办公"

4月13日,马斯克在X上宣布了一个重磅产品——Grok Computer。定位很直接:一款能直接在电脑上执行复杂操作的AI智能体。

不是给你发消息说"建议你去打开终端执行这个命令",而是直接帮你打开终端、敲命令、验收结果

业内有人把它称为"马斯克版的自动驾驶办公系统"。这个比喻挺准确——FSD接管了你的车,Grok Computer要接管你的电脑。

更具体一点,它能做什么?根据曝光的信息:

  • 直接操作桌面应用(浏览器、IDE、文档工具)
  • 自动执行多步骤工作流(帮你把文件整理、分类、发送)
  • 跨应用协作(不是在一个窗口里问问题,而是真的在操控多个软件)

目前已经在向定向用户开放私人测试版。马斯克确认,三天后(也就是4月16日左右)会开启更大范围的公测

马斯克的豪言:6月超越Claude

Grok Computer只是这次的重头戏之一。更大的看点是马斯克本人的一系列表态。

4月12日,他在一次采访中给出了一个明确的时间表:

  • 5月:Grok的能力将接近Claude Opus 4.6的水平
  • 6月:Grok将在编程任务上达到甚至超越Claude Opus 4.6

这不是随便说说。早在2月份,马斯克就在X上回复过网友:Grok在编程任务上超越Claude的时间点是"6月"。

问题是:这次能兑现吗?

我们先看看xAI手里有什么牌。

底牌一:恐怖的算力

xAI目前在运行的算力规模已经相当惊人:

  • 约50万块GPU等效算力(仅孟菲斯集群就超过20万块)
  • 2026年Q2目标:90万块GPU在线
  • 最终目标:超过100万块

对比一下,Anthropic的算力规模虽然也在增长,但走的路线不太一样——他们更注重效率优化,而不是单纯堆规模。

底牌二:Colossus 2超算

xAI的Colossus 2超算正在同时训练7个模型,其中最大的参数规模达到10T(万亿参数)

而目前发布的Grok 4.2,参数规模是0.5T——也就是说,现有的Grok只是最大在训模型**5%**规模的版本。

这意味着什么?Grok 4.2可能只是xAI真正王炸的前菜。

底牌三:X平台的实时数据

X平台每天产生超过1亿条帖子,2.5亿日活、6亿月活。这是Grok独有的实时信息源。

现在的Grok 4.1已经支持原生实时网络检索,在SimpleQA测试中大幅领先Claude。这种"实时感知"能力,在新闻监控、市场分析、竞品追踪等场景是刚需。

但问题也很明显

说了这么多好消息,也得看看反面。

第一,时间窗口极短。

从"明显差距"到"全面超越",通常需要的技术迭代周期远不止2个月。Claude Opus 4.7今天刚发布就已经在编程基准上拿下了64.3分,而Grok现在的编程能力离这个水平还有差距。

第二,竞争对手也在进化。

到6月的时候,Anthropic大概率会有新动作。移动的目标,不好追。

第三,马斯克的历史交付记录。

FSD跳票、Robotaxi跳票、星舰爆炸……马斯克"画大饼"然后延迟交付是有前科的。这次的时间表,有多大的可信度?

两种路线的对决

有意思的是,xAI和Anthropic代表了两种完全不同的技术路线:

xAI (Grok)Anthropic (Claude)
核心策略大力出奇迹,堆算力效率优先,优化性价比
参数路线持续扩大(10T在训)蒸馏优化(5-6T→1.5-2T)
成本高投入,月耗约10亿美元成本优化,API降价
数据侧重X平台实时数据高质量训练数据、安全对齐
基础设施自建超大规模超算依托云平台

很难说哪种路线"更正确"。Grok的路线像是在赌:算力够大,总能砸出一个超级模型。Claude的路线更稳健:在有限的资源下追求最优效率。

我的判断

综合来看,Grok在5-6月实现显著提升、缩小与Claude的差距,这是大概率事件。在实时信息、长文本输出这些特定领域,Grok已经建立了明确优势。

但要在2个月内,在核心编程能力和抽象推理上真正超越Claude Opus 4.6(或同期新版本),挑战极大。

马斯克这次的豪言,更像是在给xAI打广告、拉投资、抢人才。招商文件里xAI对Grok安全性"接近满分"的自我评估,也透着一股营销味儿。

不过话说回来,Grok Computer这个"虚拟员工"的概念,确实戳中了现在AI助手的痛点。如果真能在6月公测,而且稳定可用,那"AI帮你干活"这件事,就真的从概念变成了现实。

到时候,评价标准就不只是"谁更聪明",而是"谁更能帮你干活"了。

这场竞赛,才刚刚开始。


参考资料:Grok 4.1 API接入指南(CSDN/掘金)、马斯克xAI路线图分析(CSDN)、Grok Computer公测公告(鱼皮AI导航)