Claude 2.1 升级后,可轻松处理20W指令。虽然很高兴能够将这一强大的新功能交到用户手中,但通常需要几个小时的人力才能完成的任务可能需要 Claude 几分钟的时间。我们预计随着技术的进步,延迟将大幅减少。
200K 上下文窗口
自今年早些时候推出以来,Claude 已被数百万人用于广泛的应用——从翻译学术论文到起草商业计划书和分析复杂的合同。在与用户的讨论中,他们要求在处理长文档时提供更大的上下文窗口和更准确的输出。
现在传递给 Claude 的信息量增加一倍,限制为 200,000 个令牌,翻译为大约 150,000 个单词,或超过 500 页的材料。用户现在可以上传技术文档,如整个代码库、财务报表(如 S-1),甚至是长篇文学作品,如《伊利亚特》或《奥德赛》。通过能够与大量内容或数据交谈,Claude 可以进行总结、执行问答、预测趋势、比较和对比多个文档等等。
处理 200K 长度的消息是一项复杂的壮举,通常需要数小时人工才能完成的任务, Claude 几分钟可能就可以完成了。随着技术的进步,延迟将大幅降低。
幻觉率
降低 2 倍 Claude 2.1 在诚实方面也取得了显着进步,与的 Claude 2.0 模型相比,虚假陈述减少了 2 倍。这使企业能够构建高性能的 AI 应用程序,以解决具体的业务问题,并以更高的信任度和可靠性在其运营中部署 AI。
通过策划大量复杂的事实问题来测试 Claude 2.1 的诚实性,这些问题探讨了当前模型中的已知弱点。使用区分错误声明(“玻利维亚人口第五多的城市是蒙特罗”)和承认不确定性(“我不确定玻利维亚第五大人口城市是什么”)的评分标准,Claude 2.1 更有可能提出异议而不是提供不正确的信息。
Claude 2.1 在理解和总结方面也做出了有意义的改进,特别是对于需要高度准确性的长而复杂的文档,例如法律文档、财务报告和技术规范。在评估中,Claude 2.1 的错误答案减少了 30%,错误地得出结论支持特定主张的比率降低了 3-4 倍。
PI 工具
使用 根据大众需求,我们还添加了工具使用,这是一项新的测试版功能,允许 Claude 与用户现有的流程、产品和 API 集成。这种扩展的互操作性旨在使 Claude 在用户的日常操作中更加有用。
Claude 现在可以跨开发人员定义的函数或 API 进行编排,搜索 Web 资源,并从私有知识库中检索信息。用户可以定义一组工具供 Claude 使用并指定请求。然后,模型将决定需要哪种工具来完成任务并代表他们执行操作,例如:
- 使用计算器进行复杂的数值推理
- 将自然语言请求转换为结构化 API 调用
- 通过搜索数据库或使用 Web 搜索 API 来回答问题
- 通过私有 API 在软件中执行简单操作
- 连接到产品数据集以提出建议并帮助用户完成购买
工具的使用目前处于早期开发阶段,我们正在构建开发人员功能并提示指南,以便更轻松地集成到您的应用程序中。我们鼓励用户分享有关工具使用的反馈,以帮助塑造和改进产品。
开发人员体验
Claude API 用户的开发人员控制台体验,同时更轻松地测试新提示以加快学习速度。新的 Workbench 产品使开发人员能够在 Playground 风格的体验中迭代提示,并访问新的模型设置以优化 Claude 的行为。他们可以创建多个提示,并在它们之间为不同的项目导航,并且修订版本会保存以保留历史上下文。开发人员还可以生成代码片段,以便直接在我们的某个 SDK 中使用他们的提示。
Claude 2.1 还引入了系统提示,允许用户向 Claude 提供自定义指令以提高性能。系统提示设置有用的上下文,增强 Claude 承担特定个性和角色的能力,或以更可定制、更一致的方式构建响应,符合用户需求。
Claude 2.1 现已在我们的 API 中提供,并且还为免费和专业级别的聊天界面提供了 claude.ai 支持。200K 令牌上下文窗口的使用是为 Claude Pro 用户保留的,他们现在可以上传比以往更大的文件。