Python-英文小说词频统计 绝地灬酷狼 2023-06-10 14:24 5阅读 0赞 import operator import re # 1) 统计出文本中的单词的词频,找出词频最高和最低的单词及其词频,并输出。 # 这个是结果 result = {} # 主函数入口 if __name__ == "__main__": try: f = open(r"文本解析器.txt", "r", encoding="UTF-8") # 避免单词因为大小进行区分 content = f.read().lower() # 找出所有单词 words = re.findall('[a-z]+', content) # 利用字典特性进行统计 for word in words: if word not in result: result[word] = 1 else: result[word] += 1 # 利用sort函数进行排序 result = sorted(result.items(), key=operator.itemgetter(1), reverse=True) # 打印结果 print(result) except BaseException as e: print(e) finally: f.close() ### 下面是python 中 正则表达的re 模块 ### compile(pattern, flags = 0) 匹配任何可选的标记来编译正则表达式的模式,然后返回一个正则表达式对象 match(pattern, string, flags = 0) 使用带有可选标记的正则表达式的模式来匹配字符串。如果匹配成功,返回匹配对象,否则返回None search(pattern, string ,flags = 0) 使用可选标记搜索字符串中第一次出现的正则表达式模式。如果匹配成功,则返回匹配对象,否则返回None findall(pattern, string\[,flags\] ) 查找字符串中所有(非重复)出现的正则表达式模式,并返回一个匹配列表 finditer(pattern, string\[,flags\] ) 与findall()相同,但返回的是一个迭代器。对于每一次匹配,迭代器都能返回一个匹配对象 split(pattern, string, max = 0) 根据正则表达式的模式分隔符,split函数将字符串分割为列表,返回匹配列表,分割最多操作max次 group(num = 0) 返回整个匹配对象,或者编号为num的特定子组 例子: import re m = re.search('foo','asdasdfooasd') #这里如果使用match将匹配不到任何字符串,因为match从第一个a开始匹配 if m is not None: print(m.group()) regex = <(.*)>(.*)<\/(.*)>|<(.*)\/> m = re.search(regex,"aa<a>aaaa</a>") #一样只有search能匹配到标签 if m is not None: print(m.group())
相关 【初学python】实例九:词频统计 今天我们来统计一下一本书里面的一些关键字。 这里首先忽略了一个问题:这是一本什么书?中文?还是英文? 如果是英文,我们要解决的问题有很多:比如说大小写问题,标点符号问题 以你之姓@/ 2023年10月18日 14:10/ 0 赞/ 125 阅读
相关 【Python】文本词频统计 ![format_png][] 哈姆雷特英文 [https://python123.io/resources/pye/hamlet.txt][https_python123 我不是女神ヾ/ 2023年07月25日 09:19/ 0 赞/ 122 阅读
相关 Python-英文小说词频统计 import operator import re 1) 统计出文本中的单词的词频,找出词频最高和最低的单词及其词频,并输出 绝地灬酷狼/ 2023年06月10日 14:24/ 0 赞/ 6 阅读
相关 python 词频统计,分词笔记 Python的中文分词库有很多,常见的有: [jieba][](结巴分词) [THULAC][](清华大学自然语言处理与社会人文计算实验室) [pkuseg 怼烎@/ 2022年10月13日 15:53/ 0 赞/ 306 阅读
相关 词频统计器--python dict 吐槽 平时就比较常用的统计器老是写的很low,最近看到了一个比较优雅的写法记录一下。 需求 想对jieba.cut返回的分词列表进行字频统计。 代码 优化 本是古典 何须时尚/ 2022年06月02日 03:15/ 0 赞/ 217 阅读
相关 python 词频的统计多种方式 现有列表如下: \[6, 7, 5, 9, 4, 1, 8, 6, 2, 9\] 希望统计各个元素出现的次数,可以看作一个词频统计的问题。 我们希望最终得到一个这样的结果 谁借莪1个温暖的怀抱¢/ 2022年05月30日 05:53/ 0 赞/ 326 阅读
相关 Python 《Hamlet》哈姆雷特英文词频统计 英文词频统计 关键问题: 1、词语 -- 键 2、相同词语的累加 -- 值 讨论:定义什么数据类型 -- 字典类型 问题描述: I:文件的输入 P: 妖狐艹你老母/ 2022年04月24日 06:00/ 0 赞/ 778 阅读
相关 Python3 简单实现词频统计 Python3 统计单词出现的行数 以 [红楼梦][Link 1] 的数据为例,Python 实现: with open('红楼梦.txt', 'r', enc 深藏阁楼爱情的钟/ 2021年12月15日 14:59/ 0 赞/ 385 阅读
相关 文件方式实现完整的英文词频统计实例 news='''Geng Jiasheng, 54, a national master technician in the manufacturing industry, i 女爷i/ 2021年09月30日 07:12/ 0 赞/ 310 阅读
还没有评论,来说两句吧...