科技网

当前位置: 首页 >IT

人工智能的下一步理解周围世界

IT
来源: 作者: 2019-04-05 22:26:40

几年前,人工智能技术之机器学习有了一项重大的突破:能够辨认图片中的事物,而且准确率极高。而目前该技术的瓶颈在于,机器能否理解图片中事物包含的意义。

一个名叫VisualGenome的新图象数据库或将推动计算机实现此目标,并帮助测量计算机在理解真实世界进程中取得的进步。教导计算机分析视觉场景是人工智能的根本。这不仅将产生更多有用的视觉算法,而且能够帮助训练计算机更有效地进行交流。由于,语言与物资世界的表现具有非常紧密的联系。

VisualGenome由专门从事计算机视觉研究的教授和斯坦福大学人工智能实验室主任李菲菲(音译)与几位同事合作开发。“我们关注计算机视觉中最困难的问题,它们是连接从感知到认知的桥梁。”李菲菲表示,“不只是输入像数数据然后辨认色彩、阴影等这类要素,而是真正将其转化成3D的认识,以及对完全的视觉语义世界的理解。”

李菲菲和同事曾创建ImageNet,一个包括了超过100万张带有内容标记的图片的数据库。每一年的ImageNet大型视觉辨认挑战赛,就是使用这个数据库来测试计算机自动识别图象内容的能力。最近一次ImageNet大赛是在2015年12月,微软凭仗多达152层的深层神经络获胜。

计算机视觉革命是一场持久的斗争。2012年,这项技术迎来了关键的转折点,那时加拿大多伦多大学赢得了ImageNet比赛,他们使用非监督的逐层贪心训练算法成功让机器基于目前最大的图象数据库进行分类辨认,而不是依托人为制定的规则。多伦多团队的成绩标志着深度学习的繁华以及更普遍人工智能的复兴。深度学习已在许多其它领域得到了运用,也让计算机能更好地处理其它重要任务,比如音频和文本处理。

多伦多大学团队的成就标志着深度学习研究的热潮兴起,和人工智能的复兴。深度学习开始应用于多个领域,使得计算机在履行音频和文本处理等任务时变得越来越能干。

VisualGenome图象的标记比ImageNet更多,包括图像中各种物体的名称和细节、这些物体之间的关系以及正在发生的动作包含的信息等等。这些辨认标记是使用众包方式完成的,该技术由李菲菲的斯坦福同事MichaelBernstein开发。

未来,使用VisualGenome的案例训练出来的算法不只是能够辨认物体,还应该具有对更复杂视觉场景的分析能力。

何为场景分析?李菲菲说道:“一个人坐在1间办公室内,但是什么样的布局,里面的人是谁,他在做甚么,周围有甚么摆设,当时正产生什么事?——我们需要将感知、认知与语言相连接。”

而这些技术最终可以运用中各个方面,比如除图片管理等较简单的应用,它还可以用于帮助机器人或自动驾驶汽车更精确地识别周围场景。它们可以指点计算机理解物资世界,从而获得更多的常识。

机器学习专家兼人工智能初创公司MetaMind创始人RichardSochar表示,语言很大程度上是关于描写视觉世界的。

VisualGenome并不是唯一一个面向人工智能研究的图像数据库。比如,微软也有一个名叫CommonObjectsinContext的数据库,同时,谷歌、Facebook和其它公司也在加强人工智能算法分析视觉场景的能力。

疲倦乏力什么原因
风寒风热感冒病因
全身乏力胃胀是什么病

相关推荐