七月在线NLP千元课程笔记

NLP七月在线
照着PDF的内容解释。
第一课

NLP基础知识
Python基础知识7分钟

正则表达式验证工具
https://regexr.com/v1/
基本字符
.匹配除了换行符外所有字符
d匹配所有数字
能找到所有数字
D除了数字之外的所有字符
s匹配空格，换行，肉眼看到是空白的地方
S除了空白之外的东西
大写都是小写的反面
w数字，字母，下划线A--Z a--z 0--9之间的任意一个都会被匹配
W除了刚才的东西
13分钟结束
指定多少个字符。
{}贪婪匹配
d{2}同时找出2个连接的数字，如果是3，同时找3个链接在一起的
d{2,5}2到5个数字

?匹配前一个0次或者1次
abc?表示字母c可以出现，也可以不出现
等价于abc{0,1}

*表示0次或者无限个
abc*表示ab或者abc，abccc，abccc等。要么不出现，要么匹配到结束

+至少出现一次
abc+不包含ab,包含abc, abcccc等无数c的情况

a(bc)+用括号表示组合，bc为一个整体，必须一起出现

[]括起来字符
[acd]找出段落中出现的acd，无论是否只有一个a，还是acd一起出现。

^匹配字符串开头
$匹配字符串末尾
^We$：匹配W开始，e结束的单词，中间只要是字符就行

b匹配w和W之间

(at)|(ce)或者意思

^[a-f]+$
(...).*1前面三个字符，后面也是相同的字符，中间字符无所谓

37分钟结束
re模块提供对正则表达式支持
import re
1 将正则表达式编译为pattern对象
2 使用pattern匹配文本，获得匹配结果，无法匹配返回none
3
使用match获取分组信息
flag可选值
re.compile()

实现一个匹配目标，字符串有多种写法。看哪个方法好。
60分钟
jieba中文处理
和拉丁语系不同，亚洲语言是不用空格分开单词的。
中文被切分为有意义的单词
jieba.cut()最合适的分词
jieba.cut_for_search()

传统SSMT基于统计的机器翻译
关于TF-IDF算法,关键词抽取
import jieba.analyse
stop words停止词，给与更多权重，注意力
textrank函数

Tokenize返回词语在原文的起止位置。

第二节
从语言模型到朴素贝叶斯分析
学习NLP非常好的切入口
公式：P(Y|X) = P(X|Y)P(Y)/P(X)
先验概率，后验概率:P(Y|X)，联合概率P(Y,X)
6条件独立假设
bag of words词袋：把词放在袋子里，不管里面的排列顺序如何
平滑处理

9处理重复词语的三种方式
9.2
伯努利模型
将重复的词语视为出现一次
9.3混合模型
10去除停用词与选择关键词
11平滑技术
12
内容小结43分钟
贝叶斯公式+条件独立假设 = 朴素贝叶斯方法
13
直接匹配关键词识别垃圾邮件
14
实际工程的tricks
14.2转换为权重
14.3 选取topk的关键词
14.4分割样本
关键词被较长的篇幅稀释了。
把文章分成很多部分，在每个小部分
14.5 位置权重
只有标题是垃圾邮件，但是内容都是正常邮件。
所以根据词语出现位置，对标题加重权重

14.6
trick6：蜜罐
15

15.1逆概率问题

15.2
处理多分类问题
邮件分成垃圾邮件和非垃圾邮件
似然函数：正比于
16
贝叶斯方法常见应用
16.1 褒贬分析
对否定词进行特别处理
16.2拼写纠错

16.3

17 内容总结
1.21分
给了例子：新闻主题分类
set()集合便利

语种检测
1.38分代码分析结束

下一个PDF
语言模型
1引言：朴素贝叶斯的局限性
2
N-gram语言模型
一个词语对上一个词语的依赖
训练语料有限，产生数据稀疏
3
实际应用
3.1 词性标注
3.2
垃圾邮件识别
2：00
提到了guthub里面的库，很棒
最后4分钟在答疑

第三课 LDA主题模型
微博翻滚吧_加号
PPT在群文件模型什么的
直观版，标准版，公式版
实战：一眼看穿希拉里邮件门
什么是主题模型
我拿到文章，告诉我文章的主题：科技，娱乐。商业等主题
简历分析：特征组成简历，
LDA:Latent Dirichlet Allocation:是一种无监督的贝叶斯模型
P14什么是贝叶斯模型
把两个概率的关系做了交换
用概率作为可信度，每次看到新数据，就更新可信度
简历和好工程师的关系
P20 topic作为中间层，可以修改分布，拟合成
P23页公示版开始
共轭分布和共轭先验
二项分布
伯努利分布
多项分布
beta分布
Dirichlet分布
P33
PLSA模型
文本生成模型
1:21分钟
用网页版html的文件讲课
LDA模型应用：一眼看穿希拉里邮件
开始一行行分析代码
import re 正则表达式

第四课
基于统计的翻译系统
服务器：NLP_server
第二讲：双语数据预处理
平行语料

第三讲词对齐
离不开语言的歧义性
GIZA++的使用
3
the noisy channel model
P(e)
P()
第五课
隐马尔科夫模型及其应用
公式好多，看来要好好研究数学公式了
三个部分：状态，初始向量，状态转移矩阵。
隐含状态
13隐马尔科夫链三大问题
感觉完全听不懂在讲啥，类似读大学时候，听不懂老师在讲啥东西。
坐在下面茫然的听着。
应用：词性标注
1:51分讲解代码：使用HMM进行词性标注
第六课
深度学习与NLP简单应用
问题原型：Text->Label
keras.io库，TF可以使用这个库
auto-encoder
original input--encoder--compressed representation --decoder--reconstructed input

任务：数据降噪，数据降维
农场主假设，无法跳出自己的维度
局部最优解
auto-encoder的代码26.43分
ASCIIAutoencoder只能代表英文字母和标准字符。这也是Python2和3的最大区别。Python基于ASCII，Python基于unicoder8能够兼容汉语等各种语言
CNN4Text
卷积Convolved Feature
泰姬陵不同效果
中间有数字
左边模糊，右边轮廓
外圈0，内圈1，不论什么颜色，在中间都会融合起来，就是模糊效应
轮廓滤镜：四周都是空白，中间是-4，
这个东西迁移到文字处理
把句子拓展成为类似图片的表达式
maxpool最大池，只有最大数字被留下来
进入池化层所有东西都会横向排布，
RNN hypothesis假设
人类看文字时候都是用图片思维。
边界处理Narrow vs wide
步伐大小stride size
案例：
NLP预处理，去除非字母，全部小写。去除stopwords，lemma，得到向量，

普通神经网络
input,hidden,output
RNN可以带上记忆
LSTM长效记忆网络
x进来，
忘记门，记忆门，
案例：
维度1：下一个字母，句子，单词，文章，图片，音符，视频，是什么东西，
1：29分解释代码
用RNN做文本生成，类似李开复搞得人工智能生成新歌曲
有个项目可以免费下载经典原著，
建议大家在服务器或者在GPU上自己跑，在家里跑一个星期，
one-hot编码字母
老师通过qq群分享视频，。然后用另外一个软件录制桌面，让分享在qq群里的视频保存下来。

第七课
词向量和相关应用
N-gram
TF-IDF
word2vec
NLP常见任务：
自动摘要
指代消解
机器翻译
词性标注
分词（中文，日文）
主题识别
文本分类
词编码需要保证词的相似性
向量空间分布的相似性。在一个坐标里面，英语数字1和西班牙语数字一放在同样类似的地方
向量空间子结构
离散表示：One-hot表示
语料库
词典
词典包含十个单词，每个单词有唯一索引
词典中的顺序和在句子中的顺序没有关联

离散表示：bag of words
文档的向量表示可以直接把名词的词向量表示加和
词权重：TF-IDF
词语出现的频率很高，说明很重要。
分布式表示：用一个词附近的其他词来表示该词
共现矩阵cocurrence matrix
局域窗中
将共现矩阵行列作为词向量
NNLM从语言模型出发，把模型最优化过程转化为求词向量的过程
softmax线性多分类器

CBOW:负例采样1:23分
Word2Vec:Skip-Gram模型

第八课条件随机场与应用conditional random field
最后一课，没课2个小时。
CRF++库
最大熵原理，鸡蛋不要放一个篮子里

11:00最大熵模型
条件随机场
权重学习
感觉听不懂，像听天书，关键老师当时学习时候是怎么能够听懂他的老师讲课。
我知道听不懂很正常，我读大学时候也是听不懂教授讲课。

最后一课，没课2个小时。学完了此课程，感觉好多公式，搞不懂，很想从入门到放弃啊。
为了年薪百万，还是要坚持，咬牙学。

七月在线NLP千元课程笔记

NLP相关栏目本月热门文章