Python 有一个 wordcloud 的第三方库,可以对标签云可视化

这个例子中我们对一篇公众号文章做标签云可视化

  1. 先抓取文章的内容
  2. 分词
  3. 统计词频
  4. 对词频可视化
# !pip install jieba pyquery wordcloud
%matplotlib inline
import matplotlib.pyplot as plt
import jieba
import pandas as pd
from pyquery import PyQuery as pq
import wordcloud
body = pq('https://mp.weixin.qq.com/s/JtwM8jaFuLjYQ5R12816yg')('#js_content')[0].text_content()
words = list(filter(lambda x: len(x.strip())>1, jieba.cut(body)))
frequencies = pd.Series(list(words), name='word').value_counts().to_dict()
wc = wordcloud.WordCloud(font_path='~/fonts/PingFang-SC-Regular.ttf')
wc.fit_words(frequencies)
plt.figure(figsize=(16, 9))
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.show()

file

HowTos 项目 Github 地址: https://github.com/toutiaoio/HowTos

评论 (0)
Post wxa image%2f0ffe6b658aed4644a5ada40abb31d355 用微信扫描
小程序码阅读原文

开发者头条

程序员分享平台