特徴とは何ですか?AIにおいてそれは何を指しますか?

陽一 和也
陽一 和也

はい、承知いたしました。想像してみてください。リンゴを見たことがない友人に、それをどう説明しますか?

あなたはおそらくこう言うでしょう:

  • それは赤いです
  • 形は丸いです
  • 触るとなめらかです
  • だいたい拳くらいの大きさです

ここで、「色」、「形」、「触感」、「大きさ」は、私たちが「リンゴ」というものを説明するために使う特徴です。


人工知能における「特徴」とは?

人工知能(特に機械学習)の分野でも、特徴の考え方は全く同じです。それは、データオブジェクトを記述するための、測定可能で有用な属性のことです。

このように理解できます。コンピューターは人間のように画像やテキストを「理解」することはできません。私たちは、これらの複雑な情報を、コンピューターが理解できる、定量化可能な「記述点」に分解する必要があります。これらの「記述点」が特徴なのです。

例:迷惑メールの識別

AIモデルを訓練して迷惑メールを自動的に識別させたいと仮定しましょう。AIは文字を認識できませんし、メールの内容を読み取ることもできません。判断を助けるために、いくつかの「特徴」を提供する必要があります。あるメールから、以下のような特徴を抽出できます。

  • 特徴1:送信者はあなたの連絡先リストにいますか? (「はい」なら1、「いいえ」なら0)
  • 特徴2:メールの件名に「無料」、「当選」、「稼ぐ」などの単語が含まれていますか? (「はい」なら1、「いいえ」なら0)
  • 特徴3:メールの内容に感嘆符はいくつありますか? (具体的な数字、例えば5)
  • 特徴4:メールにリンクはいくつありますか? (数字、例えば3)
  • 特徴5:メールは午前3時に送信されましたか? (「はい」なら1、「いいえ」なら0)

私たちは何千、何万ものメールを、上記の特徴に従って一連の数字に変換し、AIに「見てください、これらの数字の組み合わせ(特徴)を持つメールは迷惑メールで、これらは通常のメールです」と伝えます。

AIはこれらの膨大なデータから学習し、自らルールを導き出します。例えば、「もしメールの送信者が連絡先にいなくて、件名に『無料』が含まれ、内容に感嘆符が5つ以上あるなら、それは99%の確率で迷惑メールだ」といったことを発見するかもしれません。

今後、新しいメールが来た場合、AIは自動的にこれらの特徴を抽出し、学習したルールに基づいて判断を下します。

まとめ

  • 人間にとって:特徴とは、私たちが物事を説明する際に使う形容詞や属性のことです。
  • AIにとって:特徴とは、元のデータ(画像、テキスト、音声など)を数字の集合に変換したものであり、これらの数字は元のデータの重要な情報を表し、AIが学習し判断するための唯一の根拠となります。

どのような特徴を選択するかは、AIモデルの性能を直接左右します。適切な特徴を選べば、労力は半分で効果は倍増します。間違った特徴を選べば、モデルは学習に失敗するかもしれません。この特徴を選択し、作成するプロセスは、業界では「特徴量エンジニアリング」とも呼ばれ、機械学習において非常に重要な要素です。