概要
このページは具体例を通じて、「トークン」についての理解の手助けをするものです。
トークンとは、文字でも単語でも熟語でもない、文章の断片とも言える文字列です。
- 文字の例
- 朝
- 単語の例
- 原因
- 熟語の例
- 事故原因
- トークンの例
- 原因とし
AIは文章の断片であるトークンを最小単位として取り扱っています。
一般には馴染みのない言葉ですが、単語や熟語とは似て非なる重要な用語だと思います。
AIによる日本語処理において、よく出てくる言葉なので説明していきます。
AIのべりすとにおいても「トークン」の用語は出てくることが多いと感じました。
トークン一覧を覗いてみよう
具体的にトークン一覧を参照してみましょう。
https://wikiwiki.jp/ainove_wiki/トークン一覧/5
危機に瀕し
原因とし
参加しなかった
のようなトークンが登録されていることがわかります。
禁止ワードリストには単語ではなくトークンを登録する方法もあり、メリットやデメリットが多く存在しますが、そもそもトークンとは何?について掘り下げていきます。
関連URL
禁止ワードリスト
https://wikiwiki.jp/ainove_wiki/%E6%A9%9F%E8%83%BD%E8%AA%AC%E6%98%8E#n54cc3fb
トークン一覧
https://wikiwiki.jp/ainove_wiki/%E3%83%88%E3%83%BC%E3%82%AF%E3%83%B3%E4%B8%80%E8%A6%A7?word=%E3%83%88%E3%83%BC%E3%82%AF%E3%83%B3
文章例をツールで確かめてみよう
- 文章例
- 私はスマホやスマートフォンや携帯電話や携帯などを取り出した
トークンカウントツール
https://ai-novelist-share.geo.jp/tool/token_count
結果
合計:29文字 / 11 トークン ・ 1トークンあたり2.64 文字
トークン | 文字数 |
---|---|
私は | 2 |
スマホ | 3 |
や | 1 |
スマートフォン | 7 |
や | 1 |
携帯電話 | 4 |
や | 1 |
携帯 | 2 |
などを | 3 |
取り | 2 |
出した | 3 |
となりました。
スマホ系の機器類を調べたところ、
スマホ
スマートフォン
携帯電話
携帯
と4つのトークンが存在することがわかりました。ここで着目していただきたいのは、「携帯電話」が「携帯」と「電話」に分解されていないことです。
なぜ、AIが「トークン」を用いているのかについて更に興味がある方は雑記をご覧ください。
雑記
学校の国語で日本語の文法を習った方が多いと思いますが、実は中学生の国語の授業内容では十分に説明できておらず、大学院レベルでも完全ではありません。日本語の文法は厳密に定義できない所が多いのです。
AIで日本語を扱う際にまず障害となるのが、日本語の文章を分解して断片にすることです。
古くは、形態素解析によって文章の分解が行われていました。
https://opendata-web.site/tool/parse/
表記 | 読みがな | 基本形表記 | 品詞 | 品詞細分類 | 活用型 | 活用形 |
---|---|---|---|---|---|---|
私 | わたし | 私 | 名詞 | 普通名詞 | * | * |
は | は | は | 助詞 | 副助詞 | * | * |
朝日 | あさひ | 朝日 | 名詞 | 普通名詞 | * | * |
が | が | が | 助詞 | 格助詞 | * | * |
綺麗だ | きれいだ | 綺麗だ | 形容詞 | * | ナ形容詞 | 基本形 |
と | と | と | 助詞 | 格助詞 | * | * |
思った | おもった | 思う | 動詞 | * | 子音動詞ワ行 | タ形 |
。 | 。 | 。 | 特殊 | 句点 | * | * |
- 解析した文章
- 私は朝日が綺麗だと思った。
品詞について
解析結果として出力される品詞には下記があります。
- 形容詞
- 形容動詞
- 感動詞
- 副詞
- 連体詞
- 接続詞
- 接頭辞
- 接尾辞
- 名詞
- 動詞
- 助詞
- 助動詞
- 特殊(句読点、カッコ、記号、空白、タブ、改行など)
AIのべりすとの「トークン」の結果
結果
合計:13文字 / 7 トークン ・ 1トークンあたり1.86 文字
トークン | 文字数 |
---|---|
私は | 2 |
朝日 | 2 |
が | 1 |
綺麗 | 2 |
だと | 2 |
思った | 3 |
。 | 1 |
となりました。
「私は」がトークンで特徴的な部分です。
古典的手法では、
「私」名詞
+
「は」助詞
と更に分解が進みます。
現状最新のAIでは、トークナイザーというツールでトークン化処理を行なっており、AIが扱いやすいように特殊な断片化をした結果が、公開されているトークン一覧となっているようです。
トークンは、AIが扱いやすい頻出度で長めにまとまっている傾向がある印象です。
AIのべりすとで実際に使われているとされるトークナイザーのSentencepieceについての記事です。
また同時に学習データが少ないと形態素解析に劣るトークンしか出てこないことも示されており、最新型のAIには膨大な学習データが必須との印象も受けました。
なお、形態素解析には辞書が付属しており、辞書にあらかじめ膨大な単語が登録されています。辞書を作る作業も大変で、一般公開されている辞書を利用することがほとんどです。ですから、現代的な言い回しや、感情表現多めのセリフや叫び声などの擬音には対応し切れていない制約があります。
このような古典的方法での能力制限を突破する方法としてトークナイザーが研究されてきたような経緯を感じます。
参考資料
https://buildersbox.corp-sansan.com/entry/2021/06/21/110000