Python 《Hamlet》哈姆雷特英文词频统计 妖狐艹你老母 2022-04-24 06:00 779阅读 0赞 ### **英文词频统计** ### **关键问题:** 1、词语 -- 键 2、相同词语的累加 -- 值 讨论:定义什么数据类型 -- 字典类型 **问题描述:** I:文件的输入 P:采用字典类型的结构统计词语出现的频率 O:每个单词及单词出现的次数(要求输出前10个) **IPO细化:** **第一步:** (1) txt文件读取 -- txt.read("filename","r") (2) 文件大小写的转换 (3) 特殊字符(各种标点符号)的替换 (4) 输出处理后的文件 ——定义一个函数 \#将文件进行格式化处理 **第二步:对每个单词进行计数** (1) 定义一个字典类型的变量counts (2) 单词在counts 中,单词定义的值 直接+1 (3) 单词不在counts 中,首先要将单词添加到字典中,然后并将其值赋值为1 **第三步:** (1) 输出所用的键值对 (2) 输出排名前n的键值对 字典类型转换为列表类型 对列表类型用sort函数排序 按要求输出 **第四步:** 采用集合类型构建一个排除词汇库excludes 在输出结果中去掉冠词、代词、连接词等语法型词汇 # -*- coding:utf-8 -*- excludes = {"the","and","of","you","a","i","my","in"} def txt_sort(): txt = open("hamlet.txt", "r").read() txt = txt.lower() for i in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~': txt = txt.replace(i, " ") return txt hamletTxt = txt_sort() words = hamletTxt.split() counts = {} #新建一个空字典 for word in words: counts[word] = counts.get(word, 0) + 1 #对单词出现的频率进行统计 for word in excludes: del(counts[word]) items = list(counts.items()) items.sort(key=lambda x: x[1], reverse=True) for i in range(10): word, count = items[i] #返回相对应的键值对 print ("{0:<10}{1:>5}".format(word, count))
相关 【Python】文本词频统计 ![format_png][] 哈姆雷特英文 [https://python123.io/resources/pye/hamlet.txt][https_python123 我不是女神ヾ/ 2023年07月25日 09:19/ 0 赞/ 123 阅读
相关 Python-英文小说词频统计 import operator import re 1) 统计出文本中的单词的词频,找出词频最高和最低的单词及其词频,并输出 绝地灬酷狼/ 2023年06月10日 14:24/ 0 赞/ 7 阅读
相关 利用Python统计中文或英文文本词频(适合初学者) 一篇文章出现了那些词语?那些词出现的次数最多? 中文文本?英文文本? 英文文本测试资源:哈默雷特:[https://python123.io/resources/pye 比眉伴天荒/ 2023年02月27日 05:45/ 0 赞/ 3 阅读
相关 词频统计之《哈姆雷特》 描述: 水深无声/ 2022年11月16日 01:43/ 0 赞/ 134 阅读
相关 python 词频统计,分词笔记 Python的中文分词库有很多,常见的有: [jieba][](结巴分词) [THULAC][](清华大学自然语言处理与社会人文计算实验室) [pkuseg 怼烎@/ 2022年10月13日 15:53/ 0 赞/ 306 阅读
相关 词频统计器--python dict 吐槽 平时就比较常用的统计器老是写的很low,最近看到了一个比较优雅的写法记录一下。 需求 想对jieba.cut返回的分词列表进行字频统计。 代码 优化 本是古典 何须时尚/ 2022年06月02日 03:15/ 0 赞/ 217 阅读
相关 Python 《Hamlet》哈姆雷特英文词频统计 英文词频统计 关键问题: 1、词语 -- 键 2、相同词语的累加 -- 值 讨论:定义什么数据类型 -- 字典类型 问题描述: I:文件的输入 P: 妖狐艹你老母/ 2022年04月24日 06:00/ 0 赞/ 780 阅读
相关 文件方式实现完整的英文词频统计实例 news='''Geng Jiasheng, 54, a national master technician in the manufacturing industry, i 女爷i/ 2021年09月30日 07:12/ 0 赞/ 312 阅读
相关 李六乙执导话剧《哈姆雷特》沪上再问“生存或毁灭” 中新社上海1月16日电 (王笈)由著名导演李六乙执导的话剧《哈姆雷特》16日晚登台上海大剧院,再问“生存或毁灭”。“400多年来,世界舞台上对《哈姆雷特》有各式各样的翻译、解读 淡淡的烟草味﹌/ 2021年09月18日 00:20/ 0 赞/ 195 阅读
还没有评论,来说两句吧...