中文Sentence Embeddings:text2vec-base-chinese VS OpenAIEmbedding

﹏ヽ暗。殇╰゛Y 2023-10-15 06:26 163阅读 0赞

LangChain - 打造自己的GPT(五)拥有本地高效、安全的Sentence Embeddings For Chinese & English234 赞同 · 80 评论文章编辑

上文中提到了中文Sentence Embeddings text2vec-base-chinese (中文STS-B测试集评估达到SOTA),这次和OpenAIEmbedding做相对更细致一点的对比:

选用 chinese-sts-b数据集 【 该数据集通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列,分别表示 sentence1、sentence2 和相似等级(Label),相似等级范围为 0~5,5 表示语义一致,0 表示语义不相关 】。

摘取前十条看下:<

发表评论

表情:
评论列表 (有 0 条评论,163人围观)

还没有评论,来说两句吧...

相关阅读