トークンとは?
読み: トークン英語: Token
LLMがテキストを処理する際の最小単位。日本語1文字や英単語の一部に相当し、API料金や上限長の単位になります。
詳しい解説
トークンは LLM がテキストを処理する際の最小単位で、英語では単語の断片 (subword)、日本語ではおおむね 1〜2 文字に相当します。 LLM は入力テキストをトークン列に変換 (Tokenize) し、それぞれを数値ベクトルに埋め込んで処理します。
料金体系もトークン単位で設定されており、入力 1,000 トークンあたり / 出力 1,000 トークンあたりの単価が API ごとに公開されています。 また、モデルが一度に扱える最大トークン数 (コンテキストウィンドウ) はモデルによって 8K〜1M と幅があります。
料金見積もりや長文処理の設計では、入力データのトークン数を事前に推定することが重要です。
この分野を学べる生成AIスクール
トークンを含む生成AIのスキルを体系的に身につけたい方は、AI HACK のスクールランキングをご活用ください。