陽一 和也
陽一 和也
PhD student in Robotics and Computer Vision. 机器人与计算机视觉博士生。ロボット工学・CV博士課程学生。Étudiante doctorante en robotique et vision.
好的,没问题。聊到训练数据和测试数据,很多人容易搞混,其实用咱们上学时候的经历来打比方,一下就清楚了。
训练数据 vs. 测试数据:把它想象成学生时代的“刷题”和“大考”
如果你想让一个机器(我们称之为“模型”)学会一项新技能,比如识别猫和狗的图片,你不能指望它天生就会。你得“教”它,这个过程就叫训练 (Training)。
什么是训练数据?—— 教科书和练习册 (Training Data
)
训练数据就好比是给这个“学生”(模型)用的教科书和海量的练习册。
这里面有什么呢?
- 问题: 成千上万张图片。
- 标准答案: 每张图片都打好了标签,这张是“猫”,那张是“狗”。
作用是什么? 它的作用就是让模型去“学习”和“刷题”。模型会一张一张地看这些图片,然后尝试自己去猜:“嗯...这张有胡须、耳朵尖尖,我猜是猫?”。猜完之后,它会立刻对照一下标准答案。
- 猜对了?很好,它会加深对“猫”的特征的印象。
- 猜错了?(比如把一只吉娃娃当成了猫),它就会收到一个“惩罚”,然后调整自己的内部参数(可以理解为“更正自己的解题思路”),下次争取做对。
通过这样反复、大量的“练习-对照答案-修正”的过程,模型就慢慢从这些训练数据里总结出了一套规律,比如“猫”和“狗”各自的特征是什么。
什么是测试数据?—— 模拟考和期末大考 (Test Data
)
当你觉得这个学生已经学得差不多了,你怎么知道它是不是真的学明白了,还是只会“死记硬背”练习册上的原题呢?
这时候就需要一场正式的考试,而测试数据就是那份全新的、它从未见过的考卷。
这里面有什么呢?
- 问题: 一批全新的猫狗图片,这些图片绝对不能在之前的练习册(训练数据)里出现过。
- 标准答案: 答案当然也有,但这次不能提前给模型看。它得先“闭卷考试”。
作用是什么? 它的核心作用是评估模型的真实能力。
模型需要凭着从训练数据里学到的“知识”,对这份新考卷上的图片进行分类。等它全部猜完,交卷了,我们再拿出标准答案来给它“判分”。
- “这份考卷一共100张图,你猜对了95张。” —— 那么这个模型的准确率就是95%。
这个分数才能真实反映出,模型是不是真的掌握了识别猫狗的本领,能不能举一反三(专业点叫泛化能力),而不是只会做练习册上的原题。
简单总结一下
类型 | 好比是... | 是否带答案 | 作用 |
---|---|---|---|
训练数据 | 教科书、练习册 | 带标准答案 | 用来“教”和“训练”模型,让它学习规律 |
测试数据 | 模拟考、期末大考 | 不提前给答案 | 用来“考核”模型,评估它的真实水平和泛化能力 |
为什么一定要分开?
说白了,如果你用练习册里的原题来考试,那学生考100分也没什么意义,因为它可能只是把答案背下来了。只有用全新的题目,才能知道它是不是真的懂了。对机器学习来说,这个道理是完全一样的。分开训练和测试,就是为了防止模型“作弊”,确保我们得到的是一个真正有用的模型。