2015/7/13 下午12:06:19 星期一
当前位置: 主页 > 平步青云 >

专访蓝光辉教授:在365体育网投: 随机优化算法的世界里徜徉
时间:2019-05-31 14:42

摘要:雷锋网AI科技评论按:在大规模机器学习问题的求解中,随机优化算法占据着不可替代的地位。大数据在提供海量信息

雷锋网 AI 科技评论按:在大规模机器学习问题的求解中,随机优化算法占据着不可替代的地位。大数据在提供海量信息的同时,也暴露了传统计算方法效率低的问题。举例来说,从最初引发深度学习热潮的卷积神经网络,到时下最前沿的对抗神经网络和支撑 AlphaGo 的决策神经网络,都可以被归类为带有非凸目标函数的优化问题。而在海量训练集上求解此类问题都是依赖于 ADAM 和 RMSprop 等随机算法求解器。近些年来,随着大数据带动下统计学习,机器学习和深度学习等人工智能领域的迅猛发展,大规模随机优化算法已经产生了广泛的应用。雷锋网 AI 科技评论在与佐治亚理工学院蓝光辉教授交流的过程中,更深刻地理解了随机优化算法在凸和非凸问题上的研究进展和转化,也感受到蓝光辉教授在随机优化问题上的深刻洞见和前瞻性。

专访蓝光辉教授:在随机优化算法的世界里徜徉

蓝光辉教授为佐治亚理工学院博士、佐治亚理工学院终身教授,他目前还担任计算优化和应用(2014 年至今)、优化算法顶级期刊 Mathematical Programming(数学规划,2016 年至今),SIAM Journal on Optimization(SIAM 优化,2016 年至今)等杂志的副主编,是国际上机器学习和深度学习算法方向的顶级专家。蓝光辉教授的主要研究领域为:随机优化和非线性规划的理论、算法和应用,包括随机梯度下降和加速随机梯度下降,用于解决随机凸和非凸优化问题。

蓝光辉教授早在博士求学期间就专注随机优化算法的攻坚。彼时还是 2007 年,深度学习这个概念还仅限于专业领域学者间的交流。在当时,随机优化算法有一些早期的研究雏形,但仍不实用,没有很好地发展起来。蓝光辉教授在博士阶段的第一个工作中,从理论及计算两方面严格证明了鲁棒性随机优化算法的可行性,并表明这一工作比以前传统的确定算法性能更佳。

回忆起当时博士研究的经历,蓝光辉教授认为,机器学习在当时还没有这么火的原因,主要在于缺乏有效的算法去求解。「以往的算法,需要将数据从头至尾跑一遍,反复多次才能得到一个有效的结果,」蓝光辉教授向雷锋网 AI 科技评论表示,在这种情境下,数据的增加不是如虎添翼的得力助手,而是羁绊研究前行的荆棘;而他提出的这一算法解决了大数据环境下的机器学习问题,并且从理论上证明了海量数据的优势及重要性。

在博士论文的第二个工作中,蓝光辉教授证明了加速随机梯度下降(SGD)(前述 ADAM 等算法的基础)在解决随机优化模型问题中的可行性。随机梯度下降算法在深度学习里普遍被认为是一种非常有效的算法,但当时业界认为加速算法是不能用于求解随机优化模型的,「就像人在奔跑时,加速时步伐迈得很大一样,随机优化问题就相当于行走在一条多变化的道路上,当时认为并不适合这种大步长的算法。」而蓝光辉教授在解决业界这一难题时证明加速算法也能应用于随机优化模型,并达到理想效果。此外,在不同类型的确定性问题中,这一算法也能达到最优化的效果。

不过,蓝光辉教授的这一研究工作在当时只对凸问题收敛。这又催生了他后续在非凸问题的研究。在以前,优化与统计处于井水不犯河水的境地:研究优化的学者专攻算法,而研究统计的学者专注模型;在机器学习逐渐走向流行的时候,研究者将优化与统计结合在一起,综合地解决问题。

机器学习本质上是一种随机优化问题,而神经网络就是一种非凸的随机优化问题。我们可以用更通俗的语言来理解凸问题和非凸问题。如果用登山来形容机器学习的求解过程,凸问题相当于只需要攀登一座山峰的峰顶,比较容易确定全局的最高点。而非凸优化相当于希望能够在一整个包括多座山峰的山脉或山系中找到最高点,即找到全局最优解;但在客观条件限制,无法一座座山峰攀登的情况下(需要快速求解),很大概率下我们只能找到在视野所限内最高的山峰,也就是局部最优值,但不一定是全山脉最高的山峰,即全局最优解。

针对这一问题,蓝光辉教授开始设计随机优化方法解决非凸问题。凭借对非凸问题的探索,蓝光辉教授获得了美国运筹与管理学会青年教师论文奖(INFORMS JFIG Paper Competition)一等奖,并获得国家自然科学基金会杰出新人奖。随后,团队又对加速非凸随机优化算法进行探讨与研究。