实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

终身学习网

终身学习网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

热门搜索

北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名铁岭卫生职业学院排名沈阳北软信息职业技术学院排名吉林艺术学院排名吉林体育学院排名白城师范学院排名通化师范学院排名吉林农业大学排名长春电子科技学院排名吉林工业职业技术学院排名吉林司法警官职业学院排名

终身学习网 > IT > 软件开发 > 后端开发 > Python

1.Distilling the Knowledge in a Neural Network阅读笔记

Python 更新时间：2026-03-23 19:09:34发布时间：1324天前百科书网趣学号

文章来自[1]Geoffrey E. Hinton,Oriol Vinyals,Jeffrey Dean. Distilling the Knowledge in a Neural Network.[J]

下载地址

内容概括

本文提出了一个“蒸馏”的思想，其目的是将知识从大模型中转移到一个可以部署的小模型中。如果将原始模型训练Net-T训练好了，使它拥有了较强的泛化能力。然后再用精简模型训练Net-S去学习，就可以让Net-S也拥有它的泛化能力。为了达到这个目标，本文使用了softmax层输出的类别的概率来作为“soft target”。在softmax函数里，本文引入了温度T的概念，虽然写做温度，但是T实际代表的含义是Net-S训练过程中对负标签的关注程度。T<1时更平缓，T>1时更陡峭。

本文在几个常见的数据集上进行了实验，在MNIST上的实验表明，即使迁移数据集缺少类别，蒸馏也能很好的完成。从深声学模型的研究结果看，对集成的深度神经网络训练的所有改进，是可以被蒸馏成更容易部署的相同大小的单一神经网络。对于一个训练了很长时间真正大的神经网络，它的性能可以通过对大量的specialist nets的学习来提升。

笔记

2022/8/5
刚开始读论文，自己读了一遍，然后去查才发现其实啥也没读懂。看了知乎和csdn才懂了一点点
还有很多名词都不懂

转载请注明：文章转载自 www.051e.com

本文地址：http://www.051e.com/it/1033353.html

上一篇 C语言基础-指针

下一篇学习Python day2

Python相关栏目本月热门文章

热门相关搜索

北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名铁岭卫生职业学院排名沈阳北软信息职业技术学院排名吉林艺术学院排名吉林体育学院排名白城师范学院排名通化师范学院排名吉林农业大学排名长春电子科技学院排名吉林工业职业技术学院排名吉林司法警官职业学院排名吉林警察学院排名长春健康职业学院排名吉林水利电力职业学院排名大庆师范学院排名黑龙江大学排名哈尔滨剑桥学院排名哈尔滨铁道职业技术学院排名哈尔滨应用职业技术学院排名黑龙江民族职业学院排名七台河职业学院排名黑龙江生态工程职业学院排名华东师范大学排名上海健康医学院排名华东理工大学排名上海交通大学排名同济大学排名复旦大学排名上海杉达学院排名上海戏剧学院排名上海音乐学院排名

关于我们文章归档网站地图联系我们

版权所有 ©2023-2025 051e.com

ICP备案号：京ICP备12030808号