中文词频统计

浅浅的花香味﹌ 2021-12-20 20:39 451阅读 0赞

本次作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773。

1.下载一长篇中文小说。

本次作业的小说来源于水浒传五十回至五十五回。
2.从文件读取待分析文本。
3.安装并使用jieba进行中文分词。
更新词库，加入所分析对象的专业词汇。
生成词频统计
排序
排除语法型词汇，代词、冠词、连词等停用词。
输出词频最大TOP20，把结果存放到文件里

# 去除标点符号
fuhao = {
    '。','！','？','的','“','”','（','）',' ','》','《','，'}
jieba.add_word('宋江')
words = list(jieba.cut(text))
articleDict = {}
articleSet = set(words)-fuhao
for w in articleSet:
    if len(w)>1:
        articleDict[w] = words.count(w)
articlelist = sorted(articleDict.items(),key = lambda x:x[1], reverse = True)
print(articlelist)
# 对结果输出到text.csv中
import pandas as pd
for i in range(10):
    print(articlelist[i])
pd.DataFrame(data=articlelist).to_csv("F:\\xiaoshuo.csv",encoding='utf-8')

生成词云

转载于//www.cnblogs.com/lxcbk/p/10553130.html

发表评论取消回复

表情：

评论列表（有 0 条评论，451人围观）

还没有评论，来说两句吧...

相关阅读

相关 MapReduce - 词频统计

统计一个文本的词频 package Test01; import org.apache.hadoop.conf.Configuration;...

布满荆棘的人生/ 2024年04月17日 23:15/ 0 赞/ 224 阅读

相关 hadoop 词频统计

1)先写words文件 ![20180425155914434][]![Image 1][]![Image 1][] 2)再将words上传到hdfs中，可以直接运行

悠悠/ 2024年02月18日 19:51/ 0 赞/ 154 阅读

相关利用Python统计中文或英文文本词频（适合初学者）

一篇文章出现了那些词语？那些词出现的次数最多？中文文本？英文文本？英文文本测试资源：哈默雷特：[https://python123.io/resources/pye

比眉伴天荒/ 2023年02月27日 05:45/ 0 赞/ 160 阅读

相关词频统计之《三国演义》

描述：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪

淩亂°似流年/ 2022年11月16日 01:44/ 0 赞/ 379 阅读

相关 jieba库词频统计_运用jieba库进行词频统计

Python第三方库jieba(中文分词) 一、概述 jieba是优秀的中文分词第三方库 \- 中文文本需要通过分词获得单个的词语 \- jieba是优秀的中文分词第三

古城微笑少年丶/ 2022年11月05日 00:45/ 0 赞/ 377 阅读

相关【C语言】中文文本文件之词频统计

文章目录【C语言】中文文本文件之词频统计一、前言二、代码实现一 2.1 源码

叁歲伎倆/ 2022年03月12日 10:42/ 0 赞/ 469 阅读

相关中文词频统计

中文词频统计 -------------------- 这个作业的要求来自于：[https://edu.cnblogs.com/campus/gzcc/GZCC-16

小鱼儿/ 2022年01月12日 13:23/ 0 赞/ 531 阅读

相关中文词频统计及词云制作

1.中软国际华南区技术总监曾老师还会来上两次课，同学们希望曾老师讲些什么内容？（认真想一想回答）希望老师能讲讲更多关于python的知识，并且讲讲大数据的的另一些方向

妖狐艹你老母/ 2022年01月07日 23:27/ 0 赞/ 870 阅读

相关中文词频统计

本次作业的要求来自于：[https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773][https_edu.cnbl

浅浅的花香味﹌/ 2021年12月20日 20:39/ 0 赞/ 452 阅读

相关中文词频统计

作业要求来自： [https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773][https_edu.cnblogs

柔光的暖阳◎/ 2021年12月17日 08:37/ 0 赞/ 389 阅读