跳往主要内容

云论坛精华回顾(七) | 潘天佑博士:人工智能驱动的数字化转型

返回

2020年8月4日 | 学院新闻

8


非常荣幸今天有机会与大家分享“人工智能驱动的数字化转型”的相关主题。

首先简单介绍下微软研究院的历史。美国总部成立于1991年,六年后英国剑桥成立了第二个研究院。位于北京的微软亚洲研究院成立于1998年,目前拥有300位研究员,规模仅次于美国总部。

过去21年,微软亚洲研究院进行了很多基础科研工作,总共发表了5000多篇学术论文,不管是顶级学术会议还是期刊。我有时开玩笑,如果把5000多篇论文平均到21年,每年以200个工作日计算,微软亚洲研究院每天大概会发表一篇论文,每一篇论文都可以毕业一个博士生。从这个角度来看,微软亚洲研究院很像一所大学。

微软亚洲研究院主要聚焦与计算机相关的基础研究(Fundamental Research),我们的追求是做全球最领先的技术研究。同时,与大学不同的是,我们是微软的一环,如果研究成果非常好,能够快速应用到微软产品中。如今,微软几乎所有主要产品或是服务,都有微软亚洲研究院提供的技术支持与贡献。

最近几年,人工智能很火。不过微软亚洲研究院有一点不同的地方。1991年设立全球研究院时,比尔·盖茨提出计算机有一天要能看、能听、能说,并且能够了解人类。我们可以看到,目前已经基本实现了。

第一点,如何让计算机能看。首先,要让计算机能看不是一件简单的事情。Computer Vision(计算机视觉)是计算机科学领域中研究了非常多年的课题,很多Computer Vision的教授可能努力一生都无法写出一个Program,辨别一张桌子和一张椅子的差别。对计算机来说,它所看到的东西是百万级以上的点,有不同的亮度,不同的颜色。但是以点所集合成的图片,对计算机来说是无意义。我们无法让计算机理解照片显示的东西。人可以看,因为我们是万物之灵。刚才程校长提到有关人跟机器的关系,我感触颇深。人是万物之灵,可以做很多事情,但对机器来说做如此简单的一件事情非常困难。

伴随深度学习的发展,这些年我们在Computer Vision方面已经有较多突破,几位斯坦福教授收集了上百万帧的图像,由全世界最好的Computer Vision团队提出算法。他们随机从百万帧照片里面取样出来,让算法判断照片显示的是什么。刚开始计算机做的非常差,因为让计算机判别本身就是绝对困难的,更何况是几千个项目,更加难以判别。

事实上,随机选取照片来判别东西,就算是人也容易犯错。数据显示,人眼判别的犯错机率大概是5.1%。2015年,微软亚洲研究院首次提出的算法ResNet,包含152层神经网络,将错误率降低到3.57%。这是计算机视觉首先在一定条件下超过人类。诸如刷脸等很多技术,现在我们都觉得好像习以为常。其实回头来看,这一类技术原则上都是不成熟的。今天习以为常的这些技术,都是2015年以后实现的。尤其这方面的技术,中国公司是比较领先的,而且其中多少都跟微软亚洲研究院有关系。

第二点,如何让计算机能听。计算机视觉技术方面,我们已经做到了一定程度。2017年,我们开始语音识别的研究。如何让耳朵能听且听懂是什么意思。再次强调,人是万物之灵。要让机器理解语言含义则是极度困难,也是几十年来很多教授做了很多研究,穷其一生无法做到合理识别正确率。2017年,微软亚洲研究院在语音识别方面产生重要突破,首次实现和专业速录员相当甚至更低的词错率(WER)5.9%,亦是当时行业标准 Switchboard 语音识别任务中的最低记录。

第三点,如何让计算机能说。大家都觉得这点比较容易实现。因为我们经常会在电梯间听到,非常呆板且只有单一音频调机器的声音,进行乘坐电梯的相关提醒。因此,能否让计算机说出我的声音,相对是比较困难的。几个月前,我被几个做语音识别的同事骗进录音间。我用二十分钟录了三百个英文句子。从此以后,他们就可以用我的声音讲任何话。因为机器已经将声音特性全部捕捉。如果需要我讲任何话,只要把文字输入,播放出来就是我的声音。我讲话有时候比较激动,有点中气不足,有些句子讲到中间要喘口气,机器甚至连这种习惯都能模拟出来。

计算机能够看、能够听、能够说,大家都已经做到一定程度。但是刚才提的第四点,我觉得非常困难,就是计算机要了解人类。

我跟太太结婚三十年,我都不了解她。要了解人,第一步要了解人的语言。人能沟通,能思考,都是因为语言。所以首先要让计算机了解人的语言。机器阅读理解是人工智能领域中的关键挑战。而SQuAD是机器阅读理解领域的顶级赛事,竞赛目标就是让机器阅读一篇文章,然后回答关于文章的任何问题。2018年1月3号,由斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛中,微软亚洲研究院自然语言计算组以82.650的高分获胜,并首次超越人类分数82.304,这是非常了不起的里程碑。后来我们将这种技术应用在聊天机器人小冰身上。聊天机器人不负责回答正确的问题,主要目的是陪你聊天。因此它需要一定程度上更加理解人的语言。后来,我们还希望能够更进一步,不只是理解语言,还要表达的更加文雅,例如让小冰做诗。

因此,我们了解人类的时候,光靠语言了解是不够的。就像我太太常说,我讲了以后你才懂,不算真的了解我。如果你真的了解我,还没开口就要能懂。由此可见,了解一个人不光是语言沟通,有时候背后隐藏的东西变得非常重要。比如中国的国粹麻将,比围棋还要复杂。围棋虽然复杂,但事实上围棋所有东西都是明的,没有暗的东西。

机器与人下棋已经拥有很长的历史。1994年,国际跳棋方面,机器已经能够下赢人类。1997年,IBM深蓝打败国际象棋棋王。至于围棋,大概是棋类中最复杂的一种,2015年,AlphaGo才打败世界棋王。还有,AI曾经将日本麻将打到十段,全世界十段高手总共27人,当时在日本引起很大反响。目前来看,比尔·盖茨当时提出的愿景,能看、能听、能说、能够了解人类,基本上实现了。虽然对了解人类还有一段路要走,起码这些东西都在可用范围内。

接下来谈到数字化转型,大家普遍在讲如何将AI技术应用到真实生活场景。关于驱动中转型的力量,伴随上一个互联网时代,整个世界已经慢慢改变了。当世界变到某一个情况的时候,客户所需要的跟以前有所不同。那么在满足客户需求方面,我们需要思考AI如何能够让客户所需得到更大满足。世界改变的如此迅速,我们怎么样让新的技术能够切实应用,让客户需求得到更多满足,是数字化转型中很重要的功课。

两年前,微软CEO萨提亚·纳德拉出版《刷新》一书,提到数字化转型。他表示,数字化转型不是终点,而是一个旅程。很多百年企业转型时都非常痛苦。但是这种破坏性的刷新中,利用技术是非常必要的。那么AI在数字化转型中究竟起到什么作用。这里呼应程校长提到的,是机器做决定,还是人做决定,人的价值在哪里。

对于微软亚洲研究院而言,我们一向相信的是,人工智能结合人的智能。人工智能研究的越深入,就更加尊敬人的智能。因为人的智能其实是非常惊人的,那么人是怎么样去做决策的?第一先看物理世界。机器世界中的物理世界与实际世界是一样的,机器世界里面有传感器和执行器。以前我们的机器只局限在传感器跟执行器,与人的配合不包含分析决策的部分。事实上,人工智能透过传感器之后,可以把大量数据上传到云端进行分析决策。这里提到的分析和决策事实上是AI(Artificial Intelligence)和HI(Human Intelligence)一种比较广的结合,帮助我们拥有更好的决策模式。

我们相信AI不是取代人,而是成为更有力量的工具,让人变得更具有生产力,起码这是目前微软思考的核心方向,增强每个人的生产力,让大家省下时间,跟家人多在一起,让思想更开放,更有想象力。另外可以帮助更多的企业与组织。

最后总结,人工智能虽然进步非常快,但本质上还是一种工具。我们要善于运用这样的工具,让人类能够变得更聪明,更有生产力。妥善的使用人工智能会帮助我们解决更多的问题,甚至于拯救更多生命,改善整个世界。

(本文仅代表作者个人观点)