栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 软件开发 > 后端开发 > Python

1.Distilling the Knowledge in a Neural Network阅读笔记

Python 更新时间:发布时间: 百科书网 趣学号
文章来自[1]Geoffrey E. Hinton,Oriol Vinyals,Jeffrey Dean. Distilling the Knowledge in a Neural Network.[J]

下载地址

内容概括

本文提出了一个“蒸馏”的思想,其目的是将知识从大模型中转移到一个可以部署的小模型中。如果将原始模型训练Net-T训练好了,使它拥有了较强的泛化能力。然后再用精简模型训练Net-S去学习,就可以让Net-S也拥有它的泛化能力。为了达到这个目标,本文使用了softmax层输出的类别的概率来作为“soft target”。在softmax函数里,本文引入了温度T的概念,虽然写做温度,但是T实际代表的含义是Net-S训练过程中对负标签的关注程度。T<1时更平缓,T>1时更陡峭。

本文在几个常见的数据集上进行了实验,在MNIST上的实验表明,即使迁移数据集缺少类别,蒸馏也能很好的完成。从深声学模型的研究结果看,对集成的深度神经网络训练的所有改进,是可以被蒸馏成更容易部署的相同大小的单一神经网络。对于一个训练了很长时间真正大的神经网络,它的性能可以通过对大量的specialist nets的学习来提升。

笔记

2022/8/5
刚开始读论文,自己读了一遍,然后去查才发现其实啥也没读懂。看了知乎和csdn才懂了一点点
还有很多名词都不懂

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/1033353.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号