您的位置  娱乐资讯

用 Python 分析热播剧《庆余年》都有哪些关键词

  • 来源:互联网
  • |
  • 2019-12-19
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

最近《庆余年》大火,不怎么看电视剧的我也追起了剧来,可就在今天,突然发现好像进度条撑不住了,怎么就要大结局了,小说那么长怎么拍成电视剧就这么短,我表示看不够啊,处于对未知剧情的好奇,以及我实在没时间看完整本小说,我就打算用词云来分析分析这本书都有些啥关键词,开始操作之前先让大家看一看我做出来的结果:

准备工作

首先介绍一下我们今天会用到的几个 Python 库:

  1. jieba 网址:https://github.com/fxsjy/jieba
  2. imageio 网址:https://imageio.github.io/
  3. wordcloud 网址:https://pypi.org/project/wordcloud/


jieba


imageio


wordcloud

数据处理

我们先将准备好的 庆余年.txt 使用 openutf-8 的编码格式打开,然后使用 read() 函数将 txt 里的内容传给一个变量 joy,最后试着查看一下变量 joy 前 1000 个字符的内容

然后使用 jieba 的精准模式进行分词,打印输出一部分检查一下,可以我们发现分词的结果中有很多无意义的字符,比如: '/n'、'很、'算' 等等

我们现在添加以下条件判断对这些词进行筛选,其实就是使用列表生成式,关于列表生成式不太清楚的可以昨天的文章:Python:你会生成列表吗?-- 列表生成式

接下来这一步很重要,使用 join() 函数将已经经过分词,且简单去除了无意义内容的字符,以空格为间隔,以字符串的形式,存入一个新的变量 document 中,至此,我们一会需要使用的数据已经处理好了

制作词云

我们这次要制作的词云是以一张图片为形状容器的,所以我们先导入图片,使用 imageio 库的 imread() 函数

然后使用 wordcloud 库制作词云,先配置词云基本的属性,背景颜色:whitemask 就是词云的形状,默认是方形,这里使用之前读取的 imgfont_path 也就是使用什么字体必须设置,因为我们的词云是中文字,不设置不会出现字,直接给一个本地字体文件的路径,然后将之前处理好的文字数据 document 使用 wordcloud 的 generate() 函数传入

最后使用 to_file() 函数将词云保存为本地图片

打开本地目录查看最后成果:

今天的分享到此结束,别忘了点个赞,私信发送 庆余年源码 获取本次项目的所有文件及源码

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
友荐云推荐
热网推荐更多>>