
下载地址
内容概括本文提出了一个“蒸馏”的思想,其目的是将知识从大模型中转移到一个可以部署的小模型中。如果将原始模型训练Net-T训练好了,使它拥有了较强的泛化能力。然后再用精简模型训练Net-S去学习,就可以让Net-S也拥有它的泛化能力。为了达到这个目标,本文使用了softmax层输出的类别的概率来作为“soft target”。在softmax函数里,本文引入了温度T的概念,虽然写做温度,但是T实际代表的含义是Net-S训练过程中对负标签的关注程度。T<1时更平缓,T>1时更陡峭。
本文在几个常见的数据集上进行了实验,在MNIST上的实验表明,即使迁移数据集缺少类别,蒸馏也能很好的完成。从深声学模型的研究结果看,对集成的深度神经网络训练的所有改进,是可以被蒸馏成更容易部署的相同大小的单一神经网络。对于一个训练了很长时间真正大的神经网络,它的性能可以通过对大量的specialist nets的学习来提升。
笔记2022/8/5
刚开始读论文,自己读了一遍,然后去查才发现其实啥也没读懂。看了知乎和csdn才懂了一点点
还有很多名词都不懂