はい、承知いたしました。想像してみてください。リンゴを見たことがない友人に、それをどう説明しますか?
あなたはおそらくこう言うでしょう:
- それは赤いです
- 形は丸いです
- 触るとなめらかです
- だいたい拳くらいの大きさです
ここで、「色」、「形」、「触感」、「大きさ」は、私たちが「リンゴ」というものを説明するために使う特徴です。
人工知能における「特徴」とは?
人工知能(特に機械学習)の分野でも、特徴の考え方は全く同じです。それは、データオブジェクトを記述するための、測定可能で有用な属性のことです。
このように理解できます。コンピューターは人間のように画像やテキストを「理解」することはできません。私たちは、これらの複雑な情報を、コンピューターが理解できる、定量化可能な「記述点」に分解する必要があります。これらの「記述点」が特徴なのです。
例:迷惑メールの識別
AIモデルを訓練して迷惑メールを自動的に識別させたいと仮定しましょう。AIは文字を認識できませんし、メールの内容を読み取ることもできません。判断を助けるために、いくつかの「特徴」を提供する必要があります。あるメールから、以下のような特徴を抽出できます。
- 特徴1:送信者はあなたの連絡先リストにいますか? (「はい」なら1、「いいえ」なら0)
- 特徴2:メールの件名に「無料」、「当選」、「稼ぐ」などの単語が含まれていますか? (「はい」なら1、「いいえ」なら0)
- 特徴3:メールの内容に感嘆符はいくつありますか? (具体的な数字、例えば5)
- 特徴4:メールにリンクはいくつありますか? (数字、例えば3)
- 特徴5:メールは午前3時に送信されましたか? (「はい」なら1、「いいえ」なら0)
私たちは何千、何万ものメールを、上記の特徴に従って一連の数字に変換し、AIに「見てください、これらの数字の組み合わせ(特徴)を持つメールは迷惑メールで、これらは通常のメールです」と伝えます。
AIはこれらの膨大なデータから学習し、自らルールを導き出します。例えば、「もしメールの送信者が連絡先にいなくて、件名に『無料』が含まれ、内容に感嘆符が5つ以上あるなら、それは99%の確率で迷惑メールだ」といったことを発見するかもしれません。
今後、新しいメールが来た場合、AIは自動的にこれらの特徴を抽出し、学習したルールに基づいて判断を下します。
まとめ
- 人間にとって:特徴とは、私たちが物事を説明する際に使う形容詞や属性のことです。
- AIにとって:特徴とは、元のデータ(画像、テキスト、音声など)を数字の集合に変換したものであり、これらの数字は元のデータの重要な情報を表し、AIが学習し判断するための唯一の根拠となります。
どのような特徴を選択するかは、AIモデルの性能を直接左右します。適切な特徴を選べば、労力は半分で効果は倍増します。間違った特徴を選べば、モデルは学習に失敗するかもしれません。この特徴を選択し、作成するプロセスは、業界では「特徴量エンジニアリング」とも呼ばれ、機械学習において非常に重要な要素です。