---
title: OpenAI GPT 系列 Tools Calling 评测
description: >-
使用 LobeChat 测试 OpenAI GPT 系列模型(GPT 3.5-turbo / GPT-4 /GPT-4o) 的工具调用(Function
Calling)能力,并展现评测结果
tags:
- Tools Calling
- Benchmark
- Function Calling
- 工具调用
- 插件
---
# OpenAI GPT 系列工具调用(Tools Calling)
OpenAI GPT 系列模型 Tool Calling 能力一览:
| 模型 | 支持 Tool Calling | 流式 (Stream) | 并发(Parallel) | 简单指令得分 | 复杂指令 |
| ------------- | ----------------- | --------------- | ---------------- | ------------ | -------- |
| GPT-3.5-turbo | ✅ | ✅ | ✅ | 🌟🌟🌟 | 🌟 |
| GPT-4-turbo | ✅ | ✅ | ✅ | 🌟🌟 | 🌟🌟 |
| GPT-4o | ✅ | ✅ | ✅ | 🌟🌟🌟 | 🌟🌟 |
关于测试指令,详见 [工具调用 Tools Calling -
评测任务介绍](/zh/docs/usage/tools-calling#评测任务介绍)
## GPT 3.5-turbo
### 简单调用指令:天气查询
测试指令:指令 ①
流式 Tool Calling 原始输出:
### 复杂调用指令:文生图
测试指令:指令 ②
流式 Tool Calling 原始输出:
## GPT-4 Turbo
### 简单调用指令:天气查询
测试指令:指令 ①
GPT-4 Turbo 在调用 Tool Calling 时并没有像 GPT-3.5 Turbo 一样回复「好的」,且经过多次测试始终一样,因此在这一条复合指令的跟随中反而不如 GPT-3.5 Turbo,但剩余两项能力均不错。
当然,也有可能是因为 GPT-4 Turbo 的模型更加有“自主意识”,认为不需要输出这一句“好的”。
流式 Tool Calling 原始输出:
### 复杂调用指令:文生图
测试指令:指令 ②
流式 Tool Calling 原始输出:
## GPT 4o
### 简单调用指令:天气查询
测试指令:指令 ①
GPT-4o 和 3.5 一样,在简单调用指令中,能够达到非常不错的复合指令遵循能力。
流式 Tool Calling 原始输出:
### 复杂调用指令:文生图
测试指令:指令 ②
流式 Tool Calling 原始输出:
```yml
```