相关文章
LDA主题建模——基于鸿星尔克微博热搜评论
2024-11-10 17:38

目录

LDA主题建模——基于鸿星尔克微博热搜评论

项目背景

项目步骤

一、评论数据准备

二、使用步骤

1.将评论以日为单位合并

2.导包

3.TF-IDF提取关键词

 4.Word2Vec词向量训练

5.LDA模型评估指标与最佳主题数的选取

三、结果可视化和分析


        在2021年7月,一起“鸿星尔克捐款5000万”的事件引发了网友们的强烈反响。年轻一代网友,即所谓的“Z世代”,涌入直播间,进行了所谓的“野性消费”,即疯狂地超额抢购产品,导致销量暴涨。为了探究这种“野性消费”对国产品牌带来的影响和引起的思考,本项目对该时间段关于鸿星尔克的微博评论进行了基于LDA模型的主题特征分析

利用已经分词和清洗过后的评论数据作为项目数据来源,共有3500条评论。

  1. 使用  方法获得数据中的所有唯一时间戳。
  2. 对于每个唯一时间戳 ,使用  筛选出该时间段内的所有文档,然后使用  方法将它们合并成一个字符串,并用空格分隔单词。同时,将合并后的字符串转化为单词列表(即按照空格切割)并存入  中,将字符串直接存入  中。

代码如下

 

代码如下

 

        TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。它由两部分组成,TF和IDF。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文通过TF-IDF算法提取出鸿星尔克7月3日到9月1日每天的微博评论词语的权重比和最关键的三个词语。其中7月4日博文词语权重见表2-1,7月4日至7月5日最关键Top3见表2-2

 

代码如下

 

        在原始的LDA模型中,对文本建模的方式采用的词袋模型,而词袋模型存在一个严重的问题就行,常用词的词频往往很高,专有名词的词频很低,这种建模方式存在一定的不合理性。TF-IDF 相对于词袋模型的优势在于,它可以更准确地体现出文档中关键词的重要性。词袋模型只考虑了每个单词在文档中的出现频率,而没有考虑到该单词在整个文集中的重要性。相比之下,TF-IDF 还考虑了文集中某个词的普遍重要程度。

代码如下

 

利用Word2Vec构建词向量相对于词袋模型的优势在于

  • Word2Vec 不仅能够将单词表示成独立的向量,还能够学习到单词之间的语义关系。因此,通过计算向量之间的余弦相似度,可以精确地捕捉单词之间的距离和相关性,而不是简单地计数单词出现的次数。
  • Word2Vec 能够处理未见过的单词。在许多自然语言处理任务中,经常会遇到未见过的单词。而词袋模型只能依靠上下文中出现过的单词来预测未知单词的含义,这可能导致低效或不准确的结果。相比之下,Word2Vec 能够对未见过的单词进行推断,并返回合理的向量表示。
  • Word2Vec 可以提高语言处理效率。与词袋模型相比,Word2Vec 使用浅层神经网络,例如多层感知器或卷积神经网络等,可大幅提高自然语言处理的效率。这种方法还允许自动学习词向量,而无需人工干预或手动维护词表和规则库。

因此,利用Word2Vec构建词向量相对于词袋模型具有更好的表征能力、更高的泛化能力以及更高的处理效率。

代码如下

 

        主题一致性是指主题内部单词之间的联系程度,也被称为主题连贯度。在大多数关于主题建模的文章中,常用主题连贯度或主题连贯度指标来表示整体主题的可解释性,用于评估主题的质量。通常情况下,主题一致性越高,表示主题的连贯性越好,主题的可解释性也更高。

        困惑度是衡量语言模型好坏的指标,也可以用于评估主题模型的质量。它反映了模型对新样本的泛化能力。困惑度越小,意味着模型对新样本的预测效果越好。在LDA中,可以通过计算每个主题下的单词概率来计算困惑度。

        总的来说,主题一致性和困惑度是两种常用的评估LDA模型质量的指标。主题一致性主要关注主题内部单词之间的联系程度,而困惑度则更关注模型的泛化能力。

        在项目中采用主题一致性来评估模型性能,本文采用TF-IDF和word2vec对文本建模,并绘制主题——一致性曲线来确定最佳主题个数,从而判断TF-IDF和word2vec是否对主题建模质量有所提高。并通过matplotlib绘制“主题-coherence”曲线来确定最优主题数。具体来说,首先在不同主题数下构建LDA模型,然后计算每个主题的一致性得分,最后将得分平均作为整个模型的一致性得分。通过不断改变主题数并计算一致性得分,得到一系列主题-coherence数据点,根据曲线的趋势选择最优主题数,从而确定模型的最佳主题数为7,且TF-IDF 主题建模的质量更好。

代码如下

 

选择TF-IDF作为构建词向量的方法,输出每天最有可能的主题,结果如下

 代码如下

 

        pyLDAvis库是一个用于对LDA模型结果进行可视化的Python库,可以通过交互式的方式呈现主题模型的结果,pyLDAvis生成的LDA可视化结果图可以帮助我们直观地理解主题之间的相似度和每个主题的重要性。在这个图中,每个圆圈代表一个主题,圆圈的面积表示该主题在整个文集中占比大小,而圆圈之间的距离表示主题之间的距离,距离越近表示它们之间的关联程度越高。从每个圆圈的中心可以看到该主题的具体词频排名,这些词是该主题区别于其他主题的特征性词汇。

        本项目基于词此库对LDA模型结果进行可视化。作者分别对TF-IDF、word2vec,和词袋模型训练的LDA模型进行可视化,对可视化结果和各个主题下特征词进行分析,TF-IDF训练的LDA模型结果不同主题特征词差异性良好,一定程度上可以说明主题分类效果较好,但是结果主要集中在某个特定主题,其他主题圆圈非常小,很难区分不同的主题。可能是因为采集的是某个事件下的评论数据,导致评论数据主题过于接近,word2vec训练的LDA模型的三个主题具有包含关系,说明它们之间的相关性和相似性过高。词袋模型训练的LDA模型结果较为分散,但是通过人为分析每个主题下的特征词,发现不同主题特征词相似性和重复率很高,一定程度上说明主题区分度不是很高。

TF-IDF

word2vec

词袋

代码如下

    以上就是本篇文章【LDA主题建模——基于鸿星尔克微博热搜评论】的全部内容了,欢迎阅览 ! 文章地址:http://dh99988.xhstdz.com/news/3063.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://dh99988.xhstdz.com/mobile/ , 查看更多   
最新文章
适合中老年游戏活动的项目有哪些?
引言:为何中老年游戏活动尤为重要 随着社会的不断发展和生活水平的提升,中老年人的生活方式也随之改变。对于他们来说,健康和快乐成为了生活的重要组成部分。而游戏活动,不仅能够增加社交互动,还能锻炼身体与思维。因此,选择适合中老
上海旅游攻略:探访繁华之都的风情韵味
引言:开启上海的奇妙之旅 上海,这座迷人的城市,拥有着深厚的文化底蕴与现代化的繁华景象,无论是初次造访还是再次归来,都会让人惊叹于它独特的风情韵味。在这里,历史与现代交融,传统与创新并存,等待着你去探索这座繁华之都的每个角
高新企业网站优化方法大揭秘!
高新企业网站的重要性 随着互联网的快速发展,企业网站已经成为企业宣传、推广和营销的重要渠道。对于高新技术企业来说,网站更是展示企业形象、产品技术、行业影响力的窗口。因此,如何优化企业网站,提升网站的曝光率和用户体验成为了高
探索旅游景区的独特魅力:人文、自然与体验的完美结合”
引言:旅游景区的魅力所在 在如今快节奏的生活中,越来越多的人选择通过旅行来放松身心,寻找内心的宁静。在旅游的过程中,景区的选择则显得尤为重要。一个优质的旅游景区不仅仅是壮丽的自然风光,还有深厚的人文底蕴和丰富的体验活动。本
提升健康与活力:探索运动健身的多样化内容与方法
引言:健身的时代已来临 随着人们生活水平的提高,越来越多的人开始关注自身的健康与活力。运动健身不再是一种单一的方式,而是发展出了多样化的内容与方法。无论是为了减肥、塑形,还是增强体质,运动健身都成为了许多人的日常习惯和生活
80岁老人旅游规定的常见问题及注意事项解析
引言:老年人的旅游热潮 随着社会的发展和生活水平的提升,越来越多的老年人开始积极参与到旅游活动中。他们用实际行动证明,年龄并不是旅途的限制,反而是丰富人生经验的体现。虽然老年游客在旅途中享有更多的自由和乐趣,但在旅游规定及
AI写作论文是否会被检测?解密检测机制!
引言:AI写作的崛起 近年来,人工智能(AI)技术的发展迅猛,尤其是在写作领域。AI写作工具不仅能生成高质量的文章,还能满足不同用户的需求,成为内容创作的得力助手。然而,伴随着AI写作的普及,一个新的问题也逐渐显现出来:AI写作论文
几月份去兰州旅游最宜?
探索兰州的四季魅力 兰州,作为甘肃省的省会,坐落于黄河之畔,是一座历史悠久的城市,兼具独特的自然风貌与深厚的人文底蕴。每个季节,兰州展现出不同的面貌,吸引着四面八方的游客前来探索。那到底几月份去兰州旅游最为宜人呢?接下来,
探索中国旅游标志的原型与文化内涵的深度解读
探索中国旅游标志的原型与文化内涵 中国作为一个拥有悠久历史和丰富文化的国家,其旅游标志更是象征着一种独特的文化内涵。中国旅游标志的原型多取材于中国传统艺术元素,加之对中国文化的理解与诠释,形成了独具魅力的形象。 中国国徽与中
轻松搞定!服务器配置RAID:提高性能数据安全双保险!
轻松搞定!服务器配置RAID:提高性能数据安全双保险! 随着信息技术的不断发展,服务器在企业中扮演着至关重要的角色。为了提高性能和数据安全,服务器配置RAID已经成为了一种常见的选择。RAID(Redundant Array of Independent Disks)即
相关文章