栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 软件开发 > 后端开发 > Python

贝叶斯算法进行文档分类

Python 更新时间:发布时间: 百科书网 趣学号
from time import time
from sklearn.datasets import load_files

print("加载训练集 ...")
t=time()
news_train=load_files(r'C:UsersEDZPycharmProjects379train')#读入内存
print("统计:文档数:{0} ,分类数:{1} ".format(len(news_train.data),len(news_train.target_names)))
print("{0} 秒完成".format(time()-t))

#查看第一篇文档所属类别名称
news_train.target_names[news_train.target[0]]

 

#将文档转为TF-IDF表达的权重信息构成的向量
from sklearn.feature_extraction.text import TfidfVectorizer

print("将训练集转换成向量 ...")
t=time()
vectorizer=TfidfVectorizer(encoding='latin-1')
#TfidfVectotizer 类是用来把所有文档转换为矩阵,该矩阵每行都代表一个文档,
#一行中的每个元素代表一个对应的词语的重要性,词语的重要由TF-IDF来表示。
X_train=vectorizer.fit_transform((d for d in news_train.data))
#fit()先完成语料库分析、提取词典等操作,transform()完成把文档转换为向量的操作
print("样本数:%d,特征数:%d"%X_train.shape)
print("样本[{0}]的非0特征个数:{1}".format(news_train.filenames[0],X_train[0].getnnz()))
#X_train[0].getnnz()获取非0元素的个数

print("加载测试集...")
t=time()
news_test=load_files(r"C:UsersEDZPycharmProjects379test")
print("统计:文档数:{0} ,分类数:{1} ".format(len(news_test.data),len(news_test.target_names)))
print("{0} 秒完成".format(time()-t))

X_test=vectorizer.transform((d for d in news_test.data))
#vectorizer 变量是处理训练数据集时用到的向量化的类的实例,
#此处只需要调用 transform ()进行TF-IDF 数值计算即可,不需要再调用 fit ()进行语料库分析
y_test=news_test.target
print("样本数:%d,特征数:%d"%X_test.shape)
print("样本[{0}]的非0特征个数:{1}".format(news_test.filenames[0],X_test[0].getnnz()))
print("{0}秒完成".format(time()-t))

 

 

#模型训练
from sklearn.naive_bayes import MultinomialNB

print("训练模型...".format(time()-t))
t=time()
y_train=news_train.target
clf=MultinomialNB(alpha=0.0001)
#alpha 表示平滑参数,其值越小,越容易造过拟合,其值太大,越容易造成欠拟合
clf.fit(X_train,y_train)
train_score=clf.score(X_train,y_train)
print("训练集得分:{0}".format(train_score))
print("{0}秒完成".format(time()-t))

 

pred=clf.predict(X_test)

from sklearn.metrics import classification_report
print("分类报告:")
print(clf)
print(classification_report(y_test,pred,target_names=news_test.target_names))
#生成准确率、召回率、F1分数清单

 

 

from sklearn.metrics import confusion_matrix#混淆矩阵

cm=confusion_matrix(y_test,pred)
print("混淆矩阵:")
print(cm)

 

#混淆矩阵可视化
import matplotlib.pyplot as plt

def Show_confusion_matrix(cm):
    plt.figure(figsize=(8,8),dpi=144)
    plt.title("Confusion matrix of the classifier")
    ax=plt.gca()#Get Current Axes  获得当前的Axes对象ax
    ax.spines['right'].set_color('none')
    ax.spines['top'].set_color ('none') 
    ax.spines['bottom'].set_color ('none') 
    ax.spines['left'].set_color ('none') 
    ax.xaxis.set_ticks_position('none')
    ax.yaxis.set_ticks_position('none')
    ax.set_xticklabels([])
    ax.set_yticklabels([])
    plt.matshow(cm,fignum=1,cmap='gray')
    #把矩阵或者数组绘制成图像的函数  cmap代表一种颜色映射方式
    plt.colorbar();

Show_confusion_matrix(cm)
#除对角线外,其他地方颜色越浅,说明此处错误越多

 

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/273393.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号