探索 TOON (Token-Oriented Object Notation),专为 LLM 时代设计的轻量级数据格式。通过高效的 Token 序列化优化您的 AI 交互。
TOON (Token-Oriented Object Notation) 是一种专为大语言模型 (LLM) 设计的紧凑型文本数据序列化格式。与传统的 JSON 或 XML 不同(这些格式是为机器间通信设计的),TOON 经过优化以最大限度地减少“Token”(标记)消耗。它去除了冗余语法(如重复的键和过多的标点符号),使数据更易于 AI 模型“消化”。
TOON 的主要目的是优化人类(或系统)与 LLM 之间的交互。其主要应用场景包括:
通过减少表示数据所需的 Token 数量,它直接降低了使用 LLM API(如 GPT-4 或 Claude)的成本。
它允许您在相同的上下文窗口限制内放入更多信息(最高可达 2-3 倍的数据量)。
结构化、类似表格的布局有助于模型更好地理解数据点之间的关系,从而提高数据提取和分析任务的准确性。
TOON 提供了针对 AI 模型性能定制的独特功能。
消除数组中重复的键以及不必要的引号/大括号。
使用对齐 LLM “注意力”机制的缩进和标题。
在列表顶部定义一次结构(键),而不是为每个对象重复定义。
包含明确的数组长度(例如 items[5]),这有助于模型验证数据完整性并防止产生额外项的“幻觉”。
TOON 融合了 YAML 的简洁性与 CSV 的结构。
使用缩进和冒号(类似于 YAML)。
通过长度和花括号中的标题来定义。
对于简单的字符串,引号是可选的。行尾不需要逗号。
user:
id: 101
name: Alice
tags: [3]{id, label}:
1, developer
2, tech-lead
3, remote将 TOON 与行业标准的 JSON 格式进行对比。
| 特性 | JSON | TOON |
|---|---|---|
| Token 使用量 | 高(由于括号/引号导致开销大) | 低(针对密度进行了优化) |
| 冗余性 | 列表中每个对象都要重复键 | 每个列表仅声明一次键 |
| 可读性 | 开发者的标准格式 | 对 LLM 和人类都高度可读 |
| 数据完整性 | 隐式的 | 显式的(使用 [n] 计数) |
| 主要目标 | 通用数据交换 | LLM 效率 |
何时选择 TOON 而非其他格式。