陽一 和也
陽一 和也
PhD student in Robotics and Computer Vision. 机器人与计算机视觉博士生。ロボット工学・CV博士課程学生。Étudiante doctorante en robotique et vision.
好的,没问题。想象一下,你正在向一个从未见过苹果的朋友描述它,你会怎么说?
你可能会说:
- 它是红色的
- 形状是圆形的
- 摸起来很光滑
- 大概有拳头那么大
在这里,“颜色”、“形状”、“触感”、“大小”就是我们用来描述“苹果”这个东西的特征。
在人工智能里,特征是啥?
在人工智能(特别是机器学习)领域,特征的道理是完全一样的。它就是用来描述一个数据对象的可衡量的、有用的属性。
你可以这么理解:计算机不像人一样能“看懂”一张图片或者一段文字。我们必须把这些复杂的信息,拆解成一个个计算机能理解的、可以量化的“描述点”,这些“描述点”就是特征。
举个例子:识别垃圾邮件
假设我们想训练一个AI模型来自动识别垃圾邮件。AI可不认识字,也读不懂邮件内容。我们得给它提供一些“特征”来帮助它判断。对于一封邮件,我们可以提取下面这些特征:
- 特征1:发件人是否在你的联系人列表里? (可以是 1 代表“是”,0 代表“否”)
- 特征2:邮件标题里是否包含“免费”、“中奖”、“赚钱”等词语? (可以是 1 代表“是”,0 代表“否”)
- 特征3:邮件内容里有多少个感叹号? (可以是一个具体的数字,比如 5)
- 特征4:邮件里有多少个链接? (可以是一个数字,比如 3)
- 特征5:邮件是在凌晨3点发送的吗? (可以是 1 代表“是”,0 代表“否”)
我们把成千上万封邮件,都按照上面这些特征转换成一堆数字,然后告诉AI:“看,这些数字组合(特征)的邮件是垃圾邮件,那些是正常邮件。”
AI就会从这些海量数据中学习,自己总结规律,比如它可能会发现:“如果一个邮件的发件人不在联系人里,并且标题里有‘免费’,内容里感叹号超过5个,那它有99%的可能是垃圾邮件。”
以后再来一封新邮件,AI就会自动提取这些特征,然后根据它学到的规律做出判断。
总结一下
- 对人来说:特征就是我们描述事物时用的形容词和属性。
- 对AI来说:特征是把原始数据(如图片、文字、声音)转换成的一组数字,这些数字代表了原始数据的某些关键信息,是AI学习和判断的唯一依据。
选什么样的特征,直接决定了AI模型的效果好坏。选对了特征,事半功倍;选错了,模型可能就学废了。这个挑选和创造特征的过程,在业内也被称为“特征工程”,是机器学习里非常重要的一环。