中文Sentence Embeddings:text2vec-base-chinese VS OpenAIEmbedding
LangChain - 打造自己的GPT(五)拥有本地高效、安全的Sentence Embeddings For Chinese & English234 赞同 · 80 评论文章编辑
上文中提到了中文Sentence Embeddings text2vec-base-chinese (中文STS-B测试集评估达到SOTA),这次和OpenAIEmbedding做相对更细致一点的对比:
选用 chinese-sts-b数据集 【 该数据集通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列,分别表示 sentence1、sentence2 和相似等级(Label),相似等级范围为 0~5,5 表示语义一致,0 表示语义不相关 】。
摘取前十条看下:<
还没有评论,来说两句吧...