马斯克发布Grok15追了一年仍落后于GPT4和Claude3
“
xAI公司近日推出了Grok-1.5 AI模型,具备强大的推理能力和处理高达10万字文本的能力。在多项基准测试中表现优异,尽管与市场领先产品GPT-4和Claude 3 Opus存在差距,但已显著超越前代Grok-1。该模型尚未决定是否开源,展现了xAI在AI训练效率和可靠性上的创新。
由埃隆·马斯克支持的AI初创公司xAI近日推出了其最新AI模型Grok-1.5,旨在提升人工智能在处理长篇文本和复杂问题上的能力。
Grok-1.5模型将向现有用户及X平台的早期体验者开放,根据xAI的介绍,该模型增强了推理功能,并能一次性处理高达128,000个Token的文本,相当于约10万字或300页书籍的内容。这一突破性的上下文长度扩展,使得Grok-1.5能够应对更为复杂的问题和更多的示例。
在各项基准测试中,Grok-1.5展现出了其卓越的性能。在MATH基准测试中,Grok-1.5取得了50.6%的成绩,而在GSM8K基准测试中,该模型取得了90%的成绩,这两个测试覆盖了从小学到高中竞赛级别的各类数学问题。
在代码生成和问题解决方面,Grok-1.5在HumanEval基准测试中得到了74.1%的分数。在MMLU语言理解基准测试中,Grok-1.5的得分约为81%,相较于前代Grok-1的73%有了显著提升。
尽管如此,与当前市场上的领先产品GPT-4和Claude 3 Opus相比,仍有一段差距,两者的得分均在86%左右。据报道,OpenAI也计划在今年夏天推出下一代模型,这将进一步推动AI模型的竞争。

在一项类似于“大海捞针”的测试中,Grok-1.5完美地展示了其在上下文窗口中准确找到特定信息的能力。然而,这种测试的实际意义并不大,因为它更像是将语言模型作为一种昂贵的搜索工具来使用。更为关键但难以测试的是,模型在总结大量文档时的错误和遗漏数量。包括Google和Anthropic在内的其他AI公司也常常使用这种可能具有误导性的基准测试来展示其模型的性能。
xAI正在致力于提高AI训练的效率。该公司特别强调其在训练框架方面的创新。Grok-1.5基于一种专门构建的分布式训练框架,该框架使用了JAX、Rust和Kubernetes技术。这种训练架构使得团队能够轻松地进行原型设计和大规模训练新架构。
xAI表示,大型语言模型(LLMs)在大型计算集群上训练时,如何优化训练任务的可靠性和可用性是一大挑战。为此,xAI设计了一种定制的训练协调器,能够自动检测并剔除训练过程中的问题节点。同时,检查点的保存、数据加载和训练任务的重启也经过优化,以确保在出现故障时最小化停机时间。
两周前,xAI将Grok-1模型开源,这是目前开源的最大规模的混合专家模型。尽管如此,其性能仍落后于一些体积更小、效率更高的开源模型。关于是否会开源Grok-1.5,xAI并未做出任何表态。随着AI技术的不断进步和市场竞争的加剧,未来几个月和几年中,我们可能会见证更多激动人心的AI模型创新和变革。

往期推荐

马斯克的复仇:从OpenAI到开源Grok
马斯克开源Grok:参数量近ChatGPT两倍,成为最强开源模型


共有 0 条评论