EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

梦里梦外; 2023-06-03 13:56 120阅读 0赞

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

概述

文章提出了一种文本分类任务中数据增强的方法：EDA，EDA中包括四种操作，SR、RI、 RS、RD。

实验显示，在五个通用的文本分类数据集上，使用EDA方法增强语料，模型都有一定性能上的提升。

尤其在语料不足的情况下，性能提升得越多。

EDA中的四种操作

分别是，同义词替换，随机插入，随机交换，随机删除。详细操作如下图

EDA1

经过EDA方法操作后，原有句子的label还会是对的吗？

看论文的过程中，其实心中一直有一个疑问，经过EDA操作的句子，label还会是对的吗

作者在论文中回答了这一点，作者做了一个实验，用原有的训练集训练模型(未经过数据增强)，

之后在测试集中使用EDA方法，拓展测试集，将原有的测试集和拓展出的语料，喂进模型中，

发现原有测试集和拓展出的语料，最后线性层的输出，在高维空间中，距离很小。如下图所示。

format_png

作者的建议

作者给出了在实际使用EDA方法的建议，表格的左边是数据的规模 N t r a i n N_{train} Ntrain, 右边 α \alpha α是概率、比率

比如同义词替换中，替换的单词数 n = α ∗ l n=\alpha * l n=α∗l, l l l是句子长度。随机插入、随机替换类似。随机删除

的话 p = α p=\alpha p=α. n a v g n_{avg} navg代表使用EDA方法从每一个句子拓展出的句子数量。

format_png 1

原论文地址

github地址

发表评论取消回复

表情：

评论列表（有 0 条评论，120人围观）

还没有评论，来说两句吧...

相关阅读

相关论文阅读：《Bag of Tricks for Efficient Text Classification》

论文阅读：《Bag of Tricks for Efficient Text Classification》 2018-04-25 11:22:29 [卓寿杰\_Soul

冷不防/ 2023年06月04日 02:52/ 0 赞/ 104 阅读

相关 EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification

梦里梦外;/ 2023年06月03日 13:56/ 0 赞/ 121 阅读

相关 Data Augmentation in NLP

Data Augmentation in NLP Word Substitution 1. Synonym-based substitution ![202007151

骑猪看日落/ 2023年02月26日 11:23/ 0 赞/ 32 阅读

相关读书摘要-Efficient C++ performance programming techniques

Chp 1 The Tracing war story 当你的代码规模超过几千行后，tracing就变得很必要了。当在一个很小却被频繁调用的函数中加入

Myth丶恋晨/ 2022年08月26日 08:02/ 0 赞/ 286 阅读

相关 Windows Network Data Filtering Techniques

<table> <tbody> <tr> <td><font><p><font><strong></strong></font></p><p><font><s

川长思鸟来/ 2022年08月24日 01:30/ 0 赞/ 251 阅读

相关 Five Invaluable Techniques to Improve Regex Performance

Regular expressions are powerful, but with great power comes great responsibility. Becau

墨蓝/ 2022年08月02日 06:04/ 0 赞/ 286 阅读

相关 One class Classification

1. one - class SVM SVDD: [https://blog.csdn.net/OrthocenterChocolate/article/details/405

今天药忘吃喽~/ 2022年04月22日 07:44/ 0 赞/ 273 阅读

相关 Learning Data Augmentation Strategies for Object Detection（翻译）

这个方法是谷歌大脑Quoc Le团队，又训练出的一个目标检测模型，通过特别的数据扩增策略，再用自动扩增来的新数据集训练目标检测模型，使该算法在针对小数据集的目标检测

梦里梦外;/ 2021年12月16日 12:25/ 0 赞/ 382 阅读

相关 Text Classification

Text Classification For purpose of word embedding extrinsic evaluation, especially do

淩亂°似流年/ 2021年12月13日 03:31/ 0 赞/ 305 阅读

相关 [笔记] Data Augmentation for Computer Vision with PyTorch

> 数据增强（Data Augmentation）是一种避免模型过拟合、提高模型泛化能力的常见手段，由于种类和细节繁多，很少有人对其进行整理。 > 本篇博文旨在对常见的数据

╰半橙微兮°/ 2021年11月26日 22:52/ 0 赞/ 593 阅读