LLM 時代のために特別に設計されたデータ形式、TOON (Token-Oriented Object Notation) を活用しましょう。トークン効率の高いシリアライズにより、AI との対話を最適化します。
TOON (Token-Oriented Object Notation) は、大規模言語モデル (LLM) 用に特別に設計された、コンパクトなテキストベースのデータシリアライズ形式です。マシン間の通信用に設計された従来の JSON や XML とは異なり、TOON は「トークン」消費を最小限に抑えるように最適化されています。繰り返されるキーや過剰な句読点などの冗長な構文を取り除き、AI モデルがデータをより「消化」しやすくします。
TOON の主な目的は、人間(またはシステム)と LLM の間の相互作用を最適化することです。主なユースケースは次のとおりです。
データを表現するために必要なトークン数を減らすことで、LLM API(GPT-4 や Claude など)の使用コストを直接削減します。
限られたコンテキストウィンドウ内に、より多くの情報(最大 2〜3 倍のデータ量)を収めることができます。
構造化されたテーブル形式のレイアウトにより、モデルがデータポイント間の関係をよりよく理解できるようになり、データ抽出や分析タスクの精度が向上します。
TOON は、AI モデルのパフォーマンスに合わせて調整された独自の機能を提供します。
配列内の繰り返されるキーや不要な引用符/中括弧を排除します。
LLM の「アテンション」メカニズムに合わせたインデントとヘッダーを使用します。
オブジェクトごとにキーを繰り返すのではなく、リストの先頭で一度だけ構造(キー)を定義します。
配列の長さ(例:items[5])を明示的に含めることで、モデルがデータの整合性を検証し、余分な項目の「ハルシネーション」を防ぐのに役立ちます。
TOON は YAML のシンプルさと CSV の構造を融合させています。
インデントとコロンを使用します(YAML に似ています)。
長さと中括弧内のヘッダーで定義されます。
単純な文字列の場合、引用符は任意です。行末にカンマは不要です。
user:
id: 101
name: Alice
tags: [3]{id, label}:
1, developer
2, tech-lead
3, remoteTOON と業界標準の JSON 形式を比較します。
| 特徴 | JSON | TOON |
|---|---|---|
| トークン使用量 | 多い(括弧/引用符によるオーバーヘッドが大きい) | 少ない(密度が最適化されている) |
| 冗長性 | リスト内のすべてのオブジェクトでキーが繰り返される | リストごとにキーは一度だけ宣言される |
| 可読性 | 開発者向けの標準 | LLM と人間にとって高い可読性 |
| データの整合性 | 暗黙的 | 明示的([n] のようなカウントを使用) |
| 主な目的 | 一般的なデータ交換 | LLM の効率化 |
どのような場合に他の形式よりも TOON を選択すべきか。