预训练语言模型

不念不忘少年蓝@ 2022-03-01 03:50 453阅读 0赞

常用的抽取文本特征有：

TFIDF/LDA/LSI
gensim
glove
fasttext
ELMO
Bert

word2vec的训练与简易使用

glove的训练与简易使用

简易版的glove安装使用比较方便

pip install glove-python

word_list = []
with codecs.open(path,'r','utf-8') as f:
    lines = f.readlines()
    for line in lines:
        tmp = line.split(' ')
        print(tmp)
        word_list.append(tmp)
corpus_model_word = Corpus()
#fit时必须格式为[[],[]]
corpus_model_word.fit(word_list, window=10)
glove = Glove(no_components=100, learning_rate=0.05)
glove.fit(corpus_model_word.matrix, epochs=10,no_threads=1, verbose=True)
glove.add_dictionary(corpus_model_word.dictionary)
glove.save('../data/model/article/glove.bin')

其中corpus_model.fit(corpus, window=10, ignore_missing=False)ignore_missing代表如果出现OOV的词，该如何处理。

OOV未登录词向量问题

未登录词指现有词表中没有收录的词或者已有的训练语料中未曾出现过的词，通常有如下几种情况：

新出现的普通词汇：网络词汇等
专有名词：人名、地名、时间、数字表达
专业名词和研究领域词汇：特定和新兴的研究领域
其他专业名词：新产品或电影名称等

OOV问题的解决方法：两个词向量空间对齐

发表评论取消回复

表情：

评论列表（有 0 条评论，453人围观）

还没有评论，来说两句吧...

相关阅读

相关预训练模型：DeBERTa

二郎神系列开新坑啦，Deberta系列上新。从19年Roberta开源以来，Roberta应该算是使用者最多的Encoder结构模型，简单、效果好，使用起来十分方便，在过去

古城微笑少年丶/ 2023年10月12日 13:27/ 0 赞/ 197 阅读

相关 NLP-预训练模型-2019：XLM-Roberta【一种多语言预训练模型】

[《原始论文：Unsupervised Cross-lingual Representation Learning at Scale》][Unsupervised Cross-

心已赠人/ 2023年10月01日 11:12/ 0 赞/ 165 阅读

相关 NLP-预训练模型-2019-NLU+NLG：UniLM（自然语言理解与生成的统一预训练语言模型）

UniLM论文全名为Unified Language Model Pre-training for Natural Language Understanding and Gen

谁践踏了优雅/ 2023年09月30日 10:27/ 0 赞/ 147 阅读

相关预训练模型：NLP语言模型发展

![58fdc883f67b43479b9b98d45c956ef1.png][] ![ba1b831d58a7493dbd227f8fa644496e.png][] ![

清疚/ 2023年09月25日 14:03/ 0 赞/ 112 阅读

相关对话预训练_NLP中的预训练语言模型（一）—— ERNIE们和BERTwwm

![084fb69709f176b37300b681f0c41104.gif][] 　　随着bert在NLP各种任务上取得骄人的战绩，预训练模型在这不到一年的时间内得到了很大

缺乏、安全感/ 2023年01月05日 09:58/ 0 赞/ 399 阅读

相关 pytorch 修改预训练模型

转载请注明作者和出处： [http://blog.csdn.net/john\_bh/][http_blog.csdn.net_john_bh] 文章目录

妖狐艹你老母/ 2022年11月29日 00:56/ 0 赞/ 559 阅读

相关 tf预训练模型转换为torch预训练模型

在将albert的tensorflow预训练模型转换为 torch类型预训练模型，踩了很多坑。终于解决，希望对大家有用 1. 前期准备创建一个环境带有torc

た入场券/ 2022年11月11日 05:51/ 0 赞/ 437 阅读

相关最新《知识增强预训练语言模型》

点上方人工智能算法与Python大数据获取更多干货在右上方 ···设为星标 ★，第一时间获取资源仅做学术分享，如有侵权，联系删除转载于：专知预训练语言模型是当

r囧r小猫/ 2022年08月28日 03:46/ 0 赞/ 345 阅读

相关预训练语言模型

常用的抽取文本特征有： TFIDF/LDA/LSI gensim glove fasttext ELMO Bert [word2vec

不念不忘少年蓝@/ 2022年03月01日 03:50/ 0 赞/ 454 阅读

相关 NLP预训练模型综述

现在深度学习越来越火了，在NLP领域主要使用CNNs、RNNs、GNNs以及attention机制。尽管这些模型取得了一些成绩，但是和CV相比，还是有些差距的，主

迈不过友情╰/ 2021年09月24日 13:34/ 0 赞/ 811 阅读