栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 前沿技术 > 人工智能 > NLP

七月在线NLP千元课程笔记

NLP 更新时间:发布时间: 百科书网 趣学号


NLP七月在线
照着PDF的内容解释。
第一课

NLP基础知识
Python基础知识7分钟

正则表达式验证工具
https://regexr.com/v1/
基本字符
.匹配除了换行符外所有字符
d匹配所有数字
能找到所有数字
D除了数字之外的所有字符
s匹配空格,换行,肉眼看到是空白的地方
S除了空白之外的东西
大写都是小写的反面
w数字,字母,下划线A--Z a--z 0--9之间的任意一个都会被匹配
W除了刚才的东西
13分钟结束
指定多少个字符。
{}贪婪匹配
d{2}同时找出2个连接的数字,如果是3,同时找3个链接在一起的
d{2,5}2到5个数字

?匹配前一个0次或者1次
abc?表示字母c可以出现,也可以不出现
等价于abc{0,1}

*表示0次或者无限个
abc*表示ab或者abc,abccc,abccc等。要么不出现,要么匹配到结束

+至少出现一次
abc+不包含ab,包含abc, abcccc等无数c的情况

a(bc)+用括号表示组合,bc为一个整体,必须一起出现

[]括起来字符
[acd]找出段落中出现的acd,无论是否只有一个a,还是acd一起出现。

^匹配字符串开头
$匹配字符串末尾
^We$:匹配W开始,e结束的单词,中间只要是字符就行

b匹配w和W之间

(at)|(ce)或者意思

^[a-f]+$
(...).*1前面三个字符,后面也是相同的字符,中间字符无所谓

37分钟结束
re模块提供对正则表达式支持
import re
1 将正则表达式编译为pattern对象
2 使用pattern匹配文本,获得匹配结果,无法匹配返回none
3
使用match获取分组信息
flag可选值
re.compile()

实现一个匹配目标,字符串有多种写法。看哪个方法好。
60分钟
jieba中文处理
和拉丁语系不同,亚洲语言是不用空格分开单词的。
中文被切分为有意义的单词
jieba.cut()最合适的分词
jieba.cut_for_search()

传统SSMT基于统计的机器翻译
关于TF-IDF算法,关键词抽取
import jieba.analyse
stop words停止词,给与更多权重,注意力
textrank函数

Tokenize返回词语在原文的起止位置。

第二节
从语言模型到朴素贝叶斯分析
学习NLP非常好的切入口
公式:P(Y|X) = P(X|Y)P(Y)/P(X)
先验概率,后验概率:P(Y|X),联合概率P(Y,X)
6条件独立假设
bag of words词袋:把词放在袋子里,不管里面的排列顺序如何
平滑处理

9处理重复词语的三种方式
9.2
伯努利模型
将重复的词语视为出现一次
9.3混合模型
10去除停用词与选择关键词
11平滑技术
12
内容小结43分钟
贝叶斯公式+条件独立假设 = 朴素贝叶斯方法
13
直接匹配关键词识别垃圾邮件
14
实际工程的tricks
14.2转换为权重
14.3 选取topk的关键词
14.4分割样本
关键词被较长的篇幅稀释了。
把文章分成很多部分,在每个小部分
14.5 位置权重
只有标题是垃圾邮件,但是内容都是正常邮件。
所以根据词语出现位置,对标题加重权重

14.6
trick6:蜜罐
15

15.1逆概率问题

15.2
处理多分类问题
邮件分成垃圾邮件和非垃圾邮件
似然函数:正比于
16
贝叶斯方法常见应用
16.1 褒贬分析
对否定词进行特别处理
16.2拼写纠错

16.3

17 内容总结
1.21分
给了例子:新闻主题分类
set()集合便利

语种检测
1.38分代码分析结束

下一个PDF
语言模型
1引言:朴素贝叶斯的局限性
2
N-gram语言模型
一个词语对上一个词语的依赖
训练语料有限,产生数据稀疏
3
实际应用
3.1 词性标注
3.2
垃圾邮件识别
2:00
提到了guthub里面的库,很棒
最后4分钟在答疑

第三课 LDA主题模型
微博翻滚吧_加号
PPT在群文件模型什么的
直观版,标准版,公式版
实战:一眼看穿希拉里邮件门
什么是主题模型
我拿到文章,告诉我文章的主题:科技,娱乐。商业等主题
简历分析:特征组成简历,
LDA:Latent Dirichlet Allocation:是一种无监督的贝叶斯模型
P14什么是贝叶斯模型
把两个概率的关系做了交换
用概率作为可信度,每次看到新数据,就更新可信度
简历和好工程师的关系
P20 topic作为中间层,可以修改分布,拟合成
P23页公示版开始
共轭分布和共轭先验
二项分布
伯努利分布
多项分布
beta分布
Dirichlet分布
P33
PLSA模型
文本生成模型
1:21分钟
用网页版html的文件讲课
LDA模型应用:一眼看穿希拉里邮件
开始一行行分析代码
import re 正则表达式

第四课
基于统计的翻译系统
服务器:NLP_server
第二讲:双语数据预处理
平行语料

第三讲 词对齐
离不开语言的歧义性
GIZA++的使用
3
the noisy channel model
P(e)
P()
第五课
隐马尔科夫模型及其应用
公式好多,看来要好好研究数学公式了
三个部分:状态,初始向量,状态转移矩阵。
隐含状态
13隐马尔科夫链三大问题
感觉完全听不懂在讲啥,类似读大学时候,听不懂老师在讲啥东西。
坐在下面茫然的听着。
应用:词性标注
1:51分讲解代码:使用HMM进行词性标注
第六课
深度学习与NLP简单应用
问题原型:Text->Label
keras.io库,TF可以使用这个库
auto-encoder
original input--encoder--compressed representation --decoder--reconstructed input

任务:数据降噪,数据降维
农场主假设,无法跳出自己的维度
局部最优解
auto-encoder的代码26.43分
ASCIIAutoencoder只能代表英文字母和标准字符。这也是Python2和3的最大区别。Python基于ASCII,Python基于unicoder8能够兼容汉语等各种语言
CNN4Text
卷积Convolved Feature
泰姬陵不同效果
中间有数字
左边模糊,右边轮廓
外圈0,内圈1,不论什么颜色,在中间都会融合起来,就是模糊效应
轮廓滤镜:四周都是空白,中间是-4,
这个东西迁移到文字处理
把句子拓展成为类似图片的表达式
maxpool最大池,只有最大数字被留下来
进入池化层所有东西都会横向排布,
RNN hypothesis假设
人类看文字时候都是用图片思维。
边界处理Narrow vs wide
步伐大小stride size
案例:
NLP预处理,去除非字母,全部小写。去除stopwords,lemma,得到向量,

普通神经网络
input,hidden,output
RNN可以带上记忆
LSTM长效记忆网络
x进来,
忘记门,记忆门,
案例:
维度1:下一个字母,句子,单词,文章,图片,音符,视频,是什么东西,
1:29分解释代码
用RNN做文本生成,类似李开复搞得人工智能生成新歌曲
有个项目可以免费下载经典原著,
建议大家在服务器或者在GPU上自己跑,在家里跑一个星期,
one-hot编码字母
老师通过qq群分享视频,。然后用另外一个软件录制桌面,让分享在qq群里的视频保存下来。

第七课
词向量和相关应用
N-gram
TF-IDF
word2vec
NLP常见任务:
自动摘要
指代消解
机器翻译
词性标注
分词(中文,日文)
主题识别
文本分类
词编码需要保证词的相似性
向量空间分布的相似性。在一个坐标里面,英语数字1和西班牙语数字一放在同样类似的地方
向量空间子结构
离散表示:One-hot表示
语料库
词典
词典包含十个单词,每个单词有唯一索引
词典中的顺序和在句子中的顺序没有关联

离散表示:bag of words
文档的向量表示可以直接把名词的词向量表示加和
词权重:TF-IDF
词语出现的频率很高,说明很重要。
分布式表示:用一个词附近的其他词来表示该词
共现矩阵cocurrence matrix
局域窗中
将共现矩阵行列作为词向量
NNLM从语言模型出发,把模型最优化过程转化为求词向量的过程
softmax线性多分类器

CBOW:负例采样1:23分
Word2Vec:Skip-Gram模型

第八课 条件随机场与应用conditional random field
最后一课,没课2个小时。
CRF++库
最大熵原理,鸡蛋不要放一个篮子里

11:00最大熵模型
条件随机场
权重学习
感觉听不懂,像听天书,关键老师当时学习时候是怎么能够听懂他的老师讲课。
我知道听不懂很正常,我读大学时候也是听不懂教授讲课。


最后一课,没课2个小时。学完了此课程,感觉好多公式,搞不懂,很想从入门到放弃啊。
为了年薪百万,还是要坚持,咬牙学。




























转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/834427.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号