机器学习，用MultinomialNB多项式贝叶斯分类器进行预测

发布于2022年07月16日作者：苏南大叔来源：平行空间笔记本~

我们相信：世界是美好的，你是我也是。平行空间的世界里面，不同版本的生活也在继续...

在自然语言处理方面，对于预测其实有很多的算法。那么，贝叶斯函数就是其中一个最常见的方法。从贝叶斯函数又发展出了一个朴素贝叶斯分类器，而继而又发展出来了一个拉普拉修平滑参数。对于新人来说，是不是有些晕了。那么，现在就分几篇文章来，讲述一下贝叶斯函数。

苏南大叔：机器学习，用MultinomialNB多项式贝叶斯分类器进行预测 - 朴素贝叶斯函数 — 机器学习，用MultinomialNB多项式贝叶斯分类器进行预测（图5-1）

大家好，这里是苏南大叔的平行空间笔记本博客，这里记录苏南大叔和计算机代码的故事。本文使用python里面的sklearn机器学习包，多项式朴素贝叶斯分类器MultinomialNB来对数据进行预测。本文测试环境：win10，python@3.6.8，sklearn@0.24.2。

准备数据

首先有一部分数据，每个数据都有个唯一的结论，或好或坏。先使用大部分数据进行训练，然后对剩下的数据进行预测，然后看看预测的结果如何。

import jieba
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

数据例子如下（有个表头，20条训练，6条对比）：

苏南大叔：机器学习，用MultinomialNB多项式贝叶斯分类器进行预测 - 待测试数据 — 机器学习，用MultinomialNB多项式贝叶斯分类器进行预测（图5-2）

同时，准备一些停用词列表，放到一个.txt文件里面，然后读取到list变量里面。【非必须】

对于本文的需求来说，停用词除了标点符号，还可以添加一些中性词。因为要计算区分好评或者差评，所以将一些两边都可以使用的中性词，过滤掉的话，对最终结果的准确率提高，是有一定的好处的。

苏南大叔：机器学习，用MultinomialNB多项式贝叶斯分类器进行预测 - 停用词 — 机器学习，用MultinomialNB多项式贝叶斯分类器进行预测（图5-3）

stopwords = []
with open('./data/stopwords.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        stopwords.append(line.strip())
stopwords = list(set(stopwords))  # 去重

苏南大叔：机器学习，用MultinomialNB多项式贝叶斯分类器进行预测 - 准备代码数据 — 机器学习，用MultinomialNB多项式贝叶斯分类器进行预测（图5-4）

分词

如果文章都是使用空格分割的单词的话，这里是不用进行分词的。如果是中文的话，需要对所有的内容进行分割。然后再使用英文逗号分割，组成内容（已经应用停用词列表）。

data = pd.read_csv("./data/评价.csv", encoding="gbk")
_text = []
for c in data["内容"]:
    _seg = jieba.cut(c, cut_all=False)
    _text.append(','.join(_seg))

参考文章：

统计词频

统计词频的原因，是为了多项式朴素贝叶斯分类器提供由0和1组成的输入内容。代码范例如下：

con = CountVectorizer(stop_words=stopwords)
X = con.fit_transform(_text)

这部分的代码解释，请参考：

https://seosn.com/say/python-count-vectorizer.html

训练集和测试集

实际上，并不是总是需要对数据集进行切割的。长远来看，可以使用所用数据作为训练集，后续新出现的数据作为测试数据。

苏南大叔：机器学习，用MultinomialNB多项式贝叶斯分类器进行预测 - 进行数据预测 — 机器学习，用MultinomialNB多项式贝叶斯分类器进行预测（图5-5）

测试代码如下，选择了前20条内容做训练，后6条内容作为结果对比。

_x = X.toarray()
_y = data['评价'].values

这里的变量名称是约定俗成的，X_/y_，_train/_test。

训练集分割方案一

X_train = _x[:20, :]
y_train = _y[:20]
# print(X_train, y_train)
X_test = _x[20:, :]
y_test = _y[20:]
# print(X_test, y_test)

训练集分割方案二

官方也有个函数train_test_split，是专门用于训练集的分割的。例如：

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(_x, _y, test_size=0.2)

上面的test_size指的是，用于对比测试的比例为20%。但是，这样的训练集是随机的，也就是说每次的测试集都是不一样的。

训练集分割方案三【推荐】

使用train_test_split，顺序划分固定的训练集。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    _x, _y, test_size=0.2, random_state=1, shuffle=False)

random_state，这个取啥整数值都可以，只是为了保持一致。
shuffle，默认为true打乱，改成false就是不打乱。

朴素贝叶斯预测

先使用.fit()来做训练，第一个输入是把单词变成0,1的数组，第二个输入是这些数组元素对应的结果（真实的结论）。
使用.predict()来做预测，输入是和上面的第一个输入同样处理的数组，输出是预测的结果，格式类似上面的第二个输入。

mb = MultinomialNB(alpha=1)
mb.fit(X_train, y_train)
y_predict = mb.predict(X_test)

预测结果如下：

print('真实值：', y_test)
print('预测值：', y_predict)
print(mb.score(X_test, y_test))

这里可以看到输出如下：

真实值： ['好评' '好评' '差评' '差评' '好评' '好评']
预测值： ['好评' '好评' '差评' '差评' '好评' '好评']
1.0

这个最终评分是使用.score()，参数输入的是真实的值，看来隐藏着预测值到MultinomialNB对象里面啊。评分越接近1.0表示预测结果越好。

为了得到更好的预测结果，可以：

使用更多更准确的训练集。
使用stop_words去掉训练集中无关的词。

综述

本文主要使用了一个机器学习的朴素贝叶斯函数进行了数据预测，主要预测某句话的情感倾向是好还是坏。更多机器学习的经验文章，请点击：

https://seosn.com/tag/sklearn/

如果本文对您有帮助，或者节约了您的时间，欢迎打赏瓶饮料，建立下友谊关系。

本博客不欢迎：各种镜像采集行为。请尊重原创文章内容，转载请保留作者链接。

【福利】腾讯云最新爆款活动！1核2G云服务器首年50元！

【源码】本文代码片段及相关软件，请点此获取更多信息

【绝密】秘籍文章入口，仅传授于有缘之人 python sklearn

pip安装whl文件时，如何解决invalid file name的问题？
如何判断 python 的 arch 构架信息？是32还是64？
~gohlke/pythonlibs不能访问了，替换方案是什么？
如何使用python装饰器@classmethod定义类方法?
如何使用python装饰器@staticmethod定义静态方法?
python如何利用pickle序列化和反序列化任意变量？

前一篇后一篇联系苏南打赏大叔【真香警告】本站同款服务器，赞助商腾讯云

	原创不易，转载请保留链接，谢绝镜像采集
	如果能解决您的困扰，那么想必定是极好的
	快来这里！大家都在这儿等你讨论这个问题