小样本点云深度学习库_小样本学习:数据层面的方法

逃离我推掉我的手 2023-01-03 12:58 156阅读 0赞

本公众号的推送以互联网大数据技术为主,是《互联网大数据处理技术与应用》《Python爬虫大数据采集与挖掘》等课程的配套号。内容涉及大数据采集、存储、分析挖掘的模型算法、隐私等技术问题,其特色为原创性、技术性。

《互联网大数据处理技术与应用》的相关教学资源

网络爬虫的完整技术体系

Python爬虫大数据采集与挖掘(PPT、代码、视频)

我的数据谁做主?

  1. 充足的标注样本是保证分类器成功的主要因素,然而现实中由于隐私、代价等许多问题,样本不足是经常遇到的问题。而人类可以从很少的图片中抽象出一个新的概念,甚至可以不看图片就可以得到新的概念,比如告诉小孩带条纹的马叫做斑马,当他今后看到这种马的时候就会知道它是斑马。
  2. 2018年,本号推送过数据分类中的典型问题:小样本、非平衡、弱标签和无标签,目前小样本方面已经有所进展。
  3. 小样本学习(**FSL**,Few-Shot Learning)由此成为新的研究方向,关注的问题是如何在样本数量少的情况下进行学习。ACM Computing Survey 2020.3发表一篇FSL的综述文章,本文摘取了其中的主要结论并做了些补充。当前FSL的解决办法主要有**数据、模型和算法**三个层面,它们都**离不开先验知识**,整体方法如图所示。数据层面主要是基于先验知识进行训练数据的增广(增强、扩充);模型层面的方法围绕如何缩小假设空间大小展开,也离不开先验知识;算法层面是基于先验知识在给定的假设空间中如何改进搜素效率。
  4. 本文先介绍数据层面的解决方法,其他的陆续整理发布。

5f69d5b28a16300ae39eb7a099a7204c.png

  1. 数据层面基本的策略仍是充分利用各种数据,首先是利用小样本数据本身。**没有枪没有炮就自己造,歪枪坏炮都可以**。例如对图像进行旋转、裁剪等操作可以得到新样本,文本类型数据则可以进行同义词替换、随机插入、随机交换、随机删除、通过句法树生成意译的句子等,总之,就是对小样本训练数据进行变换,但目前主要是针对图像数据。显然,这些变换策略很大地**依赖于领域知识**,并且与数据集相关。

edccf7c5761e47518a7d1e0a4e2b707a.png

  1. 第二个策略是利用小样本训练数据集之外的其他数据,可能可以找到一些与小样本类**相似的类别数据**,可以从这些相似类数据增强小样本。例如,旅游类型评论文本不足,可以考虑利用酒店类的评论文本。但由于这两种数据终究有别,不能直接将酒店评论数据添加到旅游评论文本中,而需要考虑它们之间的相似度,有文献\[42\]**利用GAN来生成**FSL无法区分的(假)样本,例如可以把旅游评论和酒店评论之间的映射关系用GAN的生成器和辨别器来描述。要理解的是,该策略只是利用不同领域来增广数据,而没有向迁移学习进行跨域学习。迁移学习解决FSL的思想是归在模型层面。
  2. 第三个策略实际上是利用其他的弱监督或无标签数据,**使用半监督SSL的方法**。例如,可以使用小样本训练分类器,基于该分类器从其他无标签数据集中挑选高可信度样本从而完成小样本的扩充。但这种方法只是针对标注代价高的问题,如果样本数据本身就难于获得,就无法使用了。
  3. 半监督学习本身是基于所谓的**三大假设**:平滑假设(相似的数据具有相同的标签)、聚类假设(同一聚类中的数据有相同标签)、流形假设(同一流形结构下的数据具有相同标签),如图左边是根据已知标签分类,右边是结合未知标签(圆圈外假设是无标签数据)和流形假设进行训练,从而可以得到更准确的分类器。

fd5df2976afde9c866aa60ff56e616a9.png

  1. 标签传播算法**LPA**也是一种常见的SSL算法,在FSL问题中也有人拿它来用。其基本假设仍然是相似的数据应该具有相同。构造数据点的相似矩阵,边的权重越大,表示两个节点越相似,那么标签就越容易传播过去。

进一步阅读

《Python爬虫大数据采集与挖掘》、《互联网大数据处理技术与应用》是大数据应用开发和教学研究的参考书,是作者在相关领域教学科研的提炼,是学生喜欢的课程,配备PPT、代码等教学参考资料。

2b2779226609b6cc9abf16443ed7781f.png

关于爬虫“武德”的思考

迪斯尼攻略: 基于Python采集与挖掘的实现

在Python中试验非平衡数据采样SMOTE算法

学位论文格式和内容自查60问

爬虫采集的合规性与大数据处理的合规性

6488daeec68e25c28cb74c6f5e909ddc.png

IntBigData

点击阅读原文链接,查看图书详情和评论信息,欢迎读者写评论。

d37a41620680424af9bc926d74a778f4.png

发表评论

表情:
评论列表 (有 0 条评论,156人围观)

还没有评论,来说两句吧...

相关阅读