织梦CMS - 轻松建站从此开始!

我的网站

当前位置: 主页 > 周而复始 >

张娅:做人工智能研365体育网投: 究这四个要素是缺一不可

时间:2019-05-31 15:59来源:网络整理 作者:唐宇 点击:
原标题:张娅:做人工智能研究这四个要素是缺一不可5月25日消息,“2019年未来论坛·深圳技术峰会”(以下简称峰

张娅:做人工智能研究这四个要素是缺一不可

时间:05-25 18:43 阅读:4478次 转载来源:搜狐财经

原标题:张娅:做人工智能研究这四个要素是缺一不可

5月25日消息,“2019年未来论坛·深圳技术峰会”(以下简称峰会)在深圳市举行,上海交通大学教授,未来论坛青创联盟成员张娅在峰会上发表题为《资源受限下的机器学习及其在图像理解领域的应用》的演讲。

以下为演讲全文:

今天下午很荣幸能在2019年未来论坛·深圳技术峰会跟大家分享一下我们在资源受限下机器学习方面的一些成果。现在我们站在人工智能的巨大风口上,当我们谈到人工智能的时候,我们自然而然会想到人工智能的四个重要因素,这里面有数据、算法、计算以及最后的应用场景,我们在做人工智能研究的时候,其实这四个要素是缺一不可的,但是我的研究中想重点从数据的纬度展开。

刚才彭总也介绍了,我们人工智能或者说机器学习的研究过程当中,首先我们需要积累大量的训练数据,对每一个具体的任务我们都需要构件一个Dedicated的数据集,它是非常费时费力的,举个例子来说,斯坦福有一个非常著名的数据集ImageNet,这个数据集的构建可能耗时长达四五年之久,最后通过亚马逊的Mechanic Turk完成的,这个数据集被认为是广泛的驱动了这一届人工智能的兴起,在之后我们也看到各个大公司,bte365体育投注,包括微软,包括Google都开始推出了类似的数据集,这些数据为我们学界的研究也提供了重大的数据资源。大家可以看这个表格,都是以百万级规模的数据集,对于很多行业的应用来说,我们要快速的积累这么大规模的数据集,其实是不可行的,拿一个例子来说,在医疗这个领域,存在很多罕见病,全世界的病人加起来可能也不超过万例,对于这种病的研究,我们怎么依赖少量的数据进行学习呢?所以我们的研究主要聚焦在如何减少数据标注的代价,我们将从三个方面来展开。

第一方面是能不能标注更少的数据,也就是不要标注所有的数据。第二是能不能减少标注的单位成本,也就是说用一个更粗糙的方式进行标注,而不是用非常完美的方式。第三是我们现在在网上其实可以采集大量的数据,这些数据自然而然的就有一些标注信息给到我们,只是这些标注信息是含有大量噪声的,怎么让我们的模型容忍这些噪声,或者从这些噪声当中仍然能够提取出来有效的成分,训练这个模型。这就是我要讲的资源受限下的机器学习。

首先来看一下怎么减少我的标注数量,这里我们采取的是主动采样、主动学习的方式,我们通过选择性的标注,而不是用随机性的方式进行标注,达到节约标注成本的目的。

传统的机器学习通常采用被动学习。一个标准流程是假设我们有大量的数据,我们以一种随机的方式根据数据分布从数据当中选取一些样本,请专业专家或者是请一些有标注能力的人来进行标注。这样建立的模型,相当于我们的数据采集过程是一个比较简单、被动的过程,而主动学习恰恰是在数据采集的过程就开始进行学习,这里我们是在数据采集的时候对每一个数据样本进行评分,我们去评估这个样本是不是对我们的模型训练会有用,当这个样本对模型训练有用的时候,我们才送给人工标注,这样我们可以极大地减少数据标注的代价。但问题又来了,我们还没有模型,还没有训练模型,我们只有一堆数据,我们怎么知道这一堆数据哪些对我们的模型训练是有用的,哪些对我们的模型训练是没用的?挑战在于我们如何定义这个有用性。

在这个方面,我们提出了一个方法,首先我们认为如果一个样本对模型训练有用,它要能够改变当前的模型,如果它和当前的模型融合的非常好,那么它不可能对模型有所改变,也就是说它不可能对我们的模型起到改良和改进的作用。因此我们提出要选择最有可能改变模型参数的这些样本,这样的样本就能够起到改进模型的作用。

所以基于这个思路,我们就设计了基于一种随机梯度下降的方式选择对每一个样本进行评分的方式,随机梯度下降本质上是模拟了模型训练的方式,去评估每一个样本对模型参数改变的能力。我们在刚才讲的斯坦福ImageNet数据集上进行了实验,实验结果用这个曲线图表示。红色曲线是我们通过主动学习所得到的精确率,曲线越高,说明效果越好。下面紫色的线是随机的方式,可以看到通过主动学习,我们可以在相同数据量的情况下显著的提升模型的精确度,或者说在相同精确度的情况下显著的减少标注的数量。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容