Abstract：只要是监督学习，必然需要做数据处理，流程为：数据标注——>模型训练—>模型测试—>PM评估。其中数据标注是第一步。数据的质量会直接影响到模型的质量。PM需要提供具体的产品需求（如指标设定，分类规则）给算法员做模型训练。测试员需用测试集对模型测试，并反馈各项指标达成情况给PM，PM再评估其是否满足上线需求。PM在整个流程中起流程控制、质量评估、设定模型边界等作用。

监督学习与数据分类

监督学习必走的流程：

数据分为两类：

被标记过的数据
未被标记过的数据

用有标记的数据去训练模型，即监督学习。监督学习需要不断用标注过的数据去训练模型，不断调整模型参数，得到指标值更高的模型。

数据标注

数据标注的重要性：数据的质量会直接影响到模型的质量.。

数据标注任务的角色：

graph TD
A[管理员人员管理+发放数据任务+统计工资]-->B[标注员-标记数据]
B-->C[审核员-审核被标记数据的质量]
C-->D[投入模型训练]

数据标记流程：

graph TD
A[任务分配-人工分批发放or抢单式]-->B[标记程序设计-需要考虑到如何提升效率如快捷键边标记边存等功能的设置]
B-->C[进度跟踪-跟踪工作进度可以ddl淘汰人]
C-->D[质量跟踪-可审核标注员的正确率和审核通过率以评质量]

模型训练

这部分基本由算法人员负责，PM可向其交代需注意的事项和给出具体的需求和指标，如希望算法精确度在95%以上。

举个栗子：一个识别水果的产品对黄瓜的识别效果不理想。经分析发现是因为黄瓜和丝瓜长得很相似。则为达到提高识别精度(+5%)的目标,解决办法有：

补充黄瓜的数据：包括正例(xx应被识别为黄瓜)和负例(xx不应被识别为黄瓜)
优化已标注的数据：修改以往的错误标注

模型测试

测试员将未被训练的数据（预留的测试集）在新的模型下做测试。

PS：最好有后台设计，以实现自动化测试。

衡量模型优劣的指标：

1.通用指标：

精确率Precision = 真阳性的数量/预测值为阳性的数量 = 真阳性的数量/(真阳性的数量+假阳性的数量)
召回率Recall = 真阳性的数量/实际阳性的数量 = 真阳性的数量/(真阳性的数量+假阴性的数量)

还是以黄瓜和丝瓜为例：假设训练样本总数为100个，真阳性数量（正确识别为黄瓜）为90个，假阳性数量（错误识别为黄瓜）的样本数为95个，则： precision = 90/95; recall = 90/98.

3.2节详细阐述了precision和recall

模型的效果，需要在这两个指标之间达到一个平衡。一高一低或一低一高都不好。

2.因地制宜：测试还需关注不同领域不同类别相应的指标，如表情识别（喜怒哀乐恐惊中）各个情绪分类的指标不同。

测试反馈：

反馈什么：指标达成结果
意义：反馈给算法员做模型改进 + 反馈给PM以评估是否满足产品（上线）需求

产品评估

评估对象：模型是否满足上线需求。

方法：反复验证模型效果，每次记录好指标数据的对比。

假设本次模型主要是为了优化领域内其中一类的指标，在关注目的的同时，产品还需同时注意检测其他类别的效果，以免漏洞产生。

PM制定模型边界

PM工作：流程控制，质量评估，针对分类问题设定模型边界（直接影响模型是否能满足市场需求）

制定分类规则：需要非常细节地提出分类需求和设定分类规则。

例如，目的是希望模型能够识别红色，那产品需要详细描述“红色”包含的颜色，暗红色算红色吗？紫红色算红色吗？紫红色算是红色还是紫色？这些非常细节的规则都需要产品设定。

分类粗细对细分类下的数据量和数据归类有影响：如果分类细，那么针对某一类的数据就会少。如果分类大，那么一些有歧义的数据就会被放进该分类，也会影响模型效果。分类问题和策略问题道理是一样的，都需要产品对需求了解得非常深刻。

Q & A

1.数据标注、训练和测试过程中，经常遇到的问题？

影响因素：数据标注的规范够清晰，对规则的界定从一而终
注意数据标注的一致性
分类性质的工作可从简到繁

1.标注规则可从二分法开始；规则设定由简到繁，带疑虑的数据打上记号先放着。 2.放弃低频问题的规则，有歧义或交叉的数据根据新规则标注。如“你说你会干什么？”可能是询问，可能是嫌弃，带有歧义，不能归到询问类去，需要将其剔除训练集。

多类规则同时进行的标注工作需要把每类规则定的足够细致。

2.设定模型的主要衡量指标有哪些方法？

在已有模型基础上，根据具体业务和产品需求来优化模型，调配模型（数据公式）参数。

3.半监督学习？

监督学习的人工和时间成本都最高，最好只在重要和求精的任务上使用。
半监督学习：结合已标注的数据和大量未标注的数据，在节约时间和准确率上效果不错，一般用于训练较大型的基础模型，如分类和相似度。

Reference

零互联网工作经验想做AI产品经理怎么办？不如从数据标注工作入门