深度学习和人类智能存在一个显著差异,即人类擅长通过极少量的样本识别新类别物体,而深度学习在此情况下很容易产生过拟合。因此,小样本问题成为了机器学习领域中重要的研究方向之一。目前已有基于度量学习、语义信息以及数据增强等多种方法,而至于大小样本的边界、小样本学习的方法论等问题还备受关注。在本文中,复旦大学付彦伟、上海科技大学何旭明、北京邮电大学马占宇、中科院计算所王瑞平(按发言顺序整理),将答疑解惑探讨小样本学习的最新进展。本文整理自VALSE Webinar 2019第29 期Panel。

议题1

小样本 vs 大样本,多“小”才算小,多“大”才算大?什么样的情况下,需要专门设计“小样本”学习算法?小样本学习在智能体学习过程中如何和不同大小样本的数据融合?如何在数据积累中过渡到大样本学习?

付彦伟:这个问题很基础也很有意思,我们其实做小样本,一般都考虑每个类只有一个三个五个、或者十来个样本,这种one-shot 、three-shot、five-shot情况。此外在深度学习之前,从partical learning这个角度来看其实有些问题可以借鉴,在统计学,小样本学习不叫one-shot learning,而叫做smoothing probability,也就是小样本可能还和特征维度有关系。假设你的特征维度是D的话,当样本量小于logD,就算一个比较小的样本。当然现在有深度学习了,我们可能并不会从这个角度去看。

至于什么样的情况需要专门设计小 样本学习算法,其实这是一个很实际或者很工业的问题,比如在医疗图像处理中解决很罕见的病变,样

更多推荐

小样本学习,路在何方?