TOON 简介

什么是 TOON?

探索 TOON (Token-Oriented Object Notation),专为 LLM 时代设计的轻量级数据格式。通过高效的 Token 序列化优化您的 AI 交互。

什么是 TOON?

TOON (Token-Oriented Object Notation) 是一种专为大语言模型 (LLM) 设计的紧凑型文本数据序列化格式。与传统的 JSON 或 XML 不同(这些格式是为机器间通信设计的),TOON 经过优化以最大限度地减少“Token”(标记)消耗。它去除了冗余语法(如重复的键和过多的标点符号),使数据更易于 AI 模型“消化”。

TOON 有什么用处?

TOON 的主要目的是优化人类(或系统)与 LLM 之间的交互。其主要应用场景包括:

降低成本

通过减少表示数据所需的 Token 数量,它直接降低了使用 LLM API(如 GPT-4 或 Claude)的成本。

扩展上下文窗口

它允许您在相同的上下文窗口限制内放入更多信息(最高可达 2-3 倍的数据量)。

更好的推理

结构化、类似表格的布局有助于模型更好地理解数据点之间的关系,从而提高数据提取和分析任务的准确性。

核心特性

TOON 提供了针对 AI 模型性能定制的独特功能。

Token 效率

消除数组中重复的键以及不必要的引号/大括号。

LLM 友好型结构

使用对齐 LLM “注意力”机制的缩进和标题。

架构感知数组

在列表顶部定义一次结构(键),而不是为每个对象重复定义。

严格计数

包含明确的数组长度(例如 items[5]),这有助于模型验证数据完整性并防止产生额外项的“幻觉”。

语法规则

TOON 融合了 YAML 的简洁性与 CSV 的结构。

1

对象

使用缩进和冒号(类似于 YAML)。

2

数组

通过长度和花括号中的标题来定义。

3

对于简单的字符串,引号是可选的。行尾不需要逗号。

example.toon
user:
  id: 101
  name: Alice
  tags: [3]{id, label}:
    1, developer
    2, tech-lead
    3, remote

TOON vs JSON 对比

将 TOON 与行业标准的 JSON 格式进行对比。

特性JSONTOON
Token 使用量高(由于括号/引号导致开销大)低(针对密度进行了优化)
冗余性列表中每个对象都要重复键每个列表仅声明一次键
可读性开发者的标准格式对 LLM 和人类都高度可读
数据完整性隐式的显式的(使用 [n] 计数)
主要目标通用数据交换LLM 效率

使用建议

何时选择 TOON 而非其他格式。

何时使用

  • 向 LLM 发送大型数据集(如产品列表、用户或日志)时
  • 当您遇到模型的上下文限制时
  • 构建需要频繁处理结构化数据的 AI Agent 时

何时避免

  • 对于标准 Web 开发(浏览器与服务器之间的通信),JSON 仍然是行业标准
  • 对于极简单的、非嵌套的数据,Token 节省效果可以忽略不计