跳至正文

基于贝叶斯方法的新闻分类方法研究

学生:周xx

摘要:

文本自动分类是自然语言处理领域的重要分支,基于朴素贝叶斯的相关研究一直是该领域的热点之一。本文使用采集的2018年5月今日头条客户端的122487条数据,对基于朴素贝叶斯的新闻分类方法进行了研究。文中首先对新闻标题文本进行了初步的数据处理与探索,利用词云图将各类别关键词进行了可视化展示;然后利用朴素贝叶斯模型的三种形式建立了新闻文本的多分类模型;最后实现了一个简单的新闻分类系统。研究发现,伯努利朴素贝叶斯在新闻分类的表现最优,在不同的测试集比例上都实现了超过82%的准确率,最好的表现是82.61%。实验结果也证明了模型具有泛化能力强,实用性高的优点。

关键词:朴素贝叶斯;文本挖掘;新闻分类