模型注册表
模型注册表(v1/models/*.yaml)将模型标识符映射到供应商配置,记录每个模型的能力、上下文窗口和定价。
模型文件结构
Section titled “模型文件结构”模型按系列组织(GPT、Claude、Gemini 等):
v1/models/├── gpt.yaml # OpenAI GPT models├── claude.yaml # Anthropic Claude models├── gemini.yaml # Google Gemini models├── deepseek.yaml # DeepSeek models├── qwen.yaml # Alibaba Qwen models├── mistral.yaml # Mistral models├── llama.yaml # Meta Llama models└── ... # 28+ model files每个模型条目包含:
models: gpt-4o: provider: openai model_id: "gpt-4o" context_window: 128000 max_output_tokens: 16384 capabilities: - chat - streaming - tools - vision - json_mode pricing: input_per_token: 0.0000025 output_per_token: 0.00001 release_date: "2024-05-13"运行时使用 provider/model 格式标识模型:
anthropic/claude-3-5-sonnetopenai/gpt-4odeepseek/deepseek-chatgemini/gemini-2.0-flashqwen/qwen-plus运行时将其拆分为:
- Provider ID(
anthropic)→ 加载供应商清单 - Model name(
claude-3-5-sonnet)→ 在模型注册表中查找
标准能力标志:
| 能力 | 描述 |
|---|---|
chat | 基础聊天补全 |
streaming | 流式响应 |
tools | 函数/工具调用 |
vision | 图像理解 |
audio | 音频输入/输出 |
reasoning | 扩展思考(CoT) |
agentic | 多步代理工作流 |
json_mode | 结构化 JSON 输出 |
按 token 定价使运行时能够进行成本估算:
pricing: input_per_token: 0.000003 # $3 per 1M input tokens output_per_token: 0.000015 # $15 per 1M output tokens cached_input_per_token: 0.0000003 # Cached prompt discountRust 和 Python 运行时均使用此数据进行 CostEstimate 计算。
模型可包含生产部署的验证状态:
verification: status: "verified" last_checked: "2025-01-15" verified_capabilities: - chat - streaming - tools