基于sklearn实现LDA主题模型（附实战案例）

艾派森 2023-06-14 原文

LDA主题模型

1.LDA主题模型原理

        其实说到LDA能想到的有两个含义，一种是线性判别分析（Linear Discriminant Analysis），一种说的是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA）。
        现在讨论的是主题模型这个东西，它通俗点说吧，就是可以将一篇文中的主题以概率分布的形式来给出，从而通过去分析一些文档抽取出来它们的主题（分布）以后，就可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋子模型，也就是说一篇文档是由一组词构成，词与词之间没有先后顺序的关系。除此之外，一篇文章它可以包含多个主题，文章中每一个词都由是其中的一个主题生成。
        我们其实很简单就可以想到我们是如何生成的文章？就是给几个主题，然后按一定的概率去选择主题，以一定的概率选择这个主题所包含的词汇，最终组合成一篇文章。LDA就是反过来的，给它一篇文章，去推断该文章的主题分布是什么。

2.LDA主题模型推演过程

我们先从一个类似LDA的模型开始，它就是PLSA模型，它类型属于有向边概率图模型。比如说我有一批数据，有部分是垃圾邮件，有部分是正常邮件，来个新数据，我怎么判定它是不是垃圾邮件？我们首先需要建立词汇表（使用现有的单子字典或者将邮件里的单词统计下得到字典），然后随机一个矩阵，经过训练后让这个矩阵去表示那个词，为啥不用onehot呢？因为比较稀疏，很容易梯度爆炸。然后套到贝叶斯公式里: P(C|X) = P©*P(X|C) / P(X)，会有个问题，它没有办法解决一词多意或者多词一意的问题，会导致我们计算文本之间相似度时候的不准确性。我们找到个解决办法就是为每一篇文档加上一个主题。其实它核心的过程就是选定文章生成主题，确定主题生成词。在这个过程里，我们其实并没有关注词和词之间的出现顺序，所以PLSA是一种词袋子方法。它主要应用于信息检索，过滤，自然语言处理等领域，考虑到词分布和主题分布，使用EM最大期望算法去学习参数。

然后我们将PLSA模型加上一个贝叶斯框架就是我们的LDA主题模型了，换句话说LDA就是PLSA的贝叶斯版本，朴素贝叶斯的文本分类问题里的两个基础条件是：①条件独立；②每个特征的重要性都是一样的。

LDA在选主题和选词两个参数都弄成随机的，而且加入了一个dirichlet先验随机确定；但是PLSA中主题分布和词分布是唯一确定的，用EM极大似然估计算法去推断两未知的固定参数，这也是它俩之间最大的区别。

3.sklearn实现LDA主题模型（实战）

3.1数据集介绍

首先介绍一下本次实验的数据集，数据集通过爬虫采集新闻网中的数据，主要有两个字段，一个的文章内容，一个的内容所属分类，每个分类各有100条数据，如下所示：

3.2导入数据

首先还是导入数据，

import pandas as pd
import warnings
warnings.filterwarnings('ignore')
data = pd.read_excel('data.xlsx')
data.head()

3.3分词处理

接着对内容content进行分词处理，对于中文分词可以使用jieba库

import re
import jieba

def chinese_word_cut(mytext):
    jieba.load_userdict('dic.txt')  # 这里你可以添加jieba库识别不了的网络新词，避免将一些新词拆开
    jieba.initialize()
    # 文本预处理 ：去除一些无用的字符只提取出中文出来
    new_data = re.findall('[\u4e00-\u9fa5]+', mytext, re.S)
    new_data = " ".join(new_data)

    # 文本分词
    seg_list_exact = jieba.cut(new_data, cut_all=True)
    result_list = []
    with open('停用词库.txt', encoding='utf-8') as f: # 可根据需要打开停用词库，然后加上不想显示的词语
        con = f.readlines()
        stop_words = set()
        for i in con:
            i = i.replace("\n", "")   # 去掉读取每一行数据的\n
            stop_words.add(i)

    for word in seg_list_exact:
        if word not in stop_words and len(word) > 1:
            result_list.append(word)      
    return " ".join(result_list)
data["content_cutted"] = data.content.apply(chinese_word_cut)
data.head()

3.4文本向量化

from sklearn.feature_extraction.text import CountVectorizer

n_features = 1000 #提取1000个特征词语
tf_vectorizer = CountVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words='english',
                                max_df = 0.5,
                                min_df = 10)
tf = tf_vectorizer.fit_transform(data.content_cutted)

3.5构建LDA模型

因为在这里我们已经有内容所属分类这个特征，共有8个分类，所有这里我们构建8个主题模型。如果我们没有提前没有主题标签，那可以使用困惑度分析来得出这里的主题数，这个我后面再讲。

from sklearn.decomposition import LatentDirichletAllocation
n_topics = 8  # 这里是设置LDA分类的主题个数，因为这里我们已经知道了每个内容的标签共有8个类型
lda = LatentDirichletAllocation(n_components=n_topics, max_iter=50,
                                learning_method='batch',
                                learning_offset=50,
                                doc_topic_prior=0.1,
                                topic_word_prior=0.01,
                               random_state=666)  # 关于模型的参数,可查看官方文档
lda.fit(tf)

构建模型好了后，我们来输出每个主题对应的词语，

def print_top_words(model, feature_names, n_top_words):
    tword = []
    for topic_idx, topic in enumerate(model.components_):
        print(f"Topic #{topic_idx}:" )
        topic_w = " ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]])
        tword.append(topic_w)
        print(topic_w)
    return tword
# 输出每个主题对应词语
n_top_words = 25
tf_feature_names = tf_vectorizer.get_feature_names()
topic_word = print_top_words(lda, tf_feature_names, n_top_words)

我们来分析一下输出的结果，第一个0主题对应的应该是....好像还看不出来，先看后面的，第二个1主题对应的应该是股票，2主题对应的应该是教育，3主题对应的应该是科技，4主题对应的应该是体育，5主题对应的是房地产，6主题对应的是娱乐，7主题对应的应该是游戏，最后还剩一个彩票，那应该就是主题0，但是效果好像不是很好，为了提高准确率，可在数据处理和参数选择的时候多下点功夫多研究研究，得到最优的模型。

接着，我们利用训练好的模型得出每篇文章对应的主题

import numpy as np
topics=lda.transform(tf)
topics[0] # 查看第一篇文章的主题概率
topic = []
for t in topics:
    topic.append(list(t).index(np.max(t)))
data['topic']=topic
data.to_excel("data_topic.xlsx",index=False)  # 将结果保存为Excel文件

我们可以看出第一篇文章在八个主题中的概率，其中是4主题的概率最大，说明这是一篇体育类的文章。最后保存的excel文件如下：

大部分都是预测正确的，也有少部分误差，这主要还是跟文章质量、数据预处理、模型参数选择有较强的关系。

3.6LDA模型可视化

import pyLDAvis
import pyLDAvis.sklearn

pyLDAvis.enable_notebook()
pic = pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)
pyLDAvis.save_html(pic, 'lda_pass'+str(n_topics)+'.html') # 将可视化结果打包为html文件
pyLDAvis.show(pic,local=False)

这里在保存为html的时候会花费大量的时间，可忽略这一步，运行后会跳出如下界面：

在上图我们可以看出我们模型各主题的分布，模型最好的结果就是每个主题都是互相隔开的，所有在前期不确定要分多个主题的时候不妨不断通过测试可视化来确定，当鼠标滑到每个主题上时，会在看见右边该主题中频次最高的前30个词语。

3.7困惑度

最后来讲讲如何利用困惑度在未知主题个数的时候通过可视化来确定。

import matplotlib.pyplot as plt

plexs = []
scores = []
n_max_topics = 16  # 这里值可自行设置
for i in range(1,n_max_topics):
    lda = LatentDirichletAllocation(n_components=i, max_iter=50,
                                    learning_method='batch',
                                    learning_offset=50,random_state=666)
    lda.fit(tf)
    plexs.append(lda.perplexity(tf))
    scores.append(lda.score(tf))

n_t=15 # 区间最右侧的值。注意：不能大于n_max_topics
x=list(range(1,n_t))
plt.plot(x,plexs[1:n_t])
plt.xlabel("number of topics")
plt.ylabel("perplexity")
plt.show()

如何根据图形来选取呢，原则上是看图形的最低点，因为最低点意味着主题数会很大，这样就造成了模型过拟合，所以我们只要发现在小区间内有转折点，像图中的8就是最适合的主题数。

有关基于sklearn实现LDA主题模型（附实战案例）的更多相关文章

ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案
ruby-on-rails - Ruby 中的内存模型 - 2
ruby如何管理内存。例如:如果我们在执行过程中采用C程序，则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序