基于计算机的人工智能(AI)自1940年代就已经存在,但是当前的创新热潮围绕着从虚拟个人助理和视觉搜索引擎到实时翻译和无人驾驶汽车的所有事物,这为该领域带来了新的里程碑。自从IBM的Deep Blue在1997年击败俄罗斯国际象棋冠军Garry Kasparov以来,机器与人类的里程碑不可避免地提出了AI是否能比人类做的更好的问题(这是Ray Kurzweil的奇异之处不可避免的恐惧)。
正如图像识别实验所显示的那样,计算机可以比人类更快,更准确地识别出数百种猫和狗,但这是否意味着机器在识别图像中比我们更好?与大多数此类比较一样,至少到目前为止,答案有点是,很多都没有。
不到十年前,图像识别是计算机视觉和AI的相对昏昏欲睡的子集,主要出现在照片组织应用程序,搜索引擎和装配线检查中。它基于图片附带的关键字和工程师编程的算法。就普通用户而言,它像广告中所说的那样工作:在Google交付的页面中,用面团填满面团的图片逐页搜索甜甜圈。但是,只有通过人工进行费力的干预才能获得这些结果,手动干预的形式是为每张图片手动输入所述识别关键词标签,并将所述甜甜圈的性质的定义输入算法。这不是很容易扩展的东西。
然而,最近,使用称为深度学习的AI训练技术的进步使计算机无需额外的人工编程即可查找,分析和分类图像成为可能。深度学习基于人脑过程而松散地实现了大型人工神经网络-互连节点的层次结构-随着新信息的到来而重新排列自身,使计算机能够从字面上进行自我教学。
与人的大脑一样,人工神经网络使计算机能够处理更多的数据,从而变得更加智能。而且,当您在具有72个处理器和144个图形处理器(GPU)的超级计算机(如百度的Minwa)上运行这些深度学习技术时,您可以输入大量的数据。考虑到每天在互联网上共享超过30亿张图片-仅Google相册在其存在的头四个月就上传了500亿张照片-可以肯定地说,这些天可用于培训的数据量惊人。那么,在图像识别方面,所有这些计算能力和数据制作机器是否都比人类更好?
毫无疑问,计算机视觉的最新进展令人印象深刻。。。快速。大约在2011年,人类在识别图像时大幅度击败了计算机,这项测试包含大约50,000张图像,这些图像需要分类为10种类别之一(“狗”,“卡车”等)。斯坦福大学的研究人员开发了软件进行测试:大约80%的时间是正确的,而人类的对手,斯坦福大学的博士候选人和研究员安德烈·卡帕蒂(Andrej Karpathy)则获得了94%的分数。
然后,在2012年,Google X研究实验室的一个团队以不同的方式完成了这项任务,将来自YouTube视频的1000万个随机选择的缩略图图像馈入了一个人工神经网络,该网络具有分布在16,000个CPU上的超过10亿个连接。在为期三天的培训期结束后,研究人员为机器提供了20,000张随机选择的图像,没有任何识别信息。计算机查找最经常出现的图像,并准确识别出包含面部表情的时间为81.7%,人体部分的时间为76.7%,猫的时间为74.8%。
在2014年举行的2014年ImageNet大规模视觉识别挑战赛(ILSVRC)上,谷歌以卷积神经网络方法名列第一,其错误率仅为6.6%,几乎是上一年11.7%的错误率的一半。这项成就不仅仅是简单地正确识别包含狗的图像,而是正确地识别图像中大约200种不同的狗品种,只有最精通计算机的犬科专家才能快速完成这项工作。Karpathy,一位专职的人类贴标商,接受了500张图像的训练并识别了1,500张图像,再次以5.1%的错误率击败了计算机。
该记录一直持续到2015年2月,当时微软宣布以4.94%的错误率打破了人类记录。然后仅几个月后的12月,在最近的ImageNet挑战中,微软以3.5%的分类错误率打破了自己的记录。
深度学习算法正在帮助计算机以其他视觉格式击败人类。去年,伦敦玛丽皇后大学的一个研究人员小组开发了一个名为Sketch-a-Net的程序,该程序可以识别草图中的对象。该程序正确识别了所分析草图的74.9%,而参与研究的人员仅在73.1%的时间内正确识别了草图中的对象。并不是那么令人印象深刻,但是就像在前面的关于犬种的例子中一样,计算机能够正确地识别出素描中42.5%的时间绘制了哪种类型的鸟,准确率几乎是研究对象的两倍。 24.8%。
这些数字令人印象深刻,但并不能说明全部。“即使是最聪明的机器,也仍然是盲目的,”计算机视觉专家李飞飞在2015年TED的关于图像识别的演讲中说。是的,卷积神经网络和深度学习帮助提高了计算机视觉的准确率-它们甚至使机器能够为图像写出令人惊讶的准确字幕-但是机器在很多情况下仍然会遇到问题,尤其是在更多上下文,背景故事或成比例的情况下关系是必需的。当图像中只有对象的一部分时,计算机就会挣扎-这种情况称为遮挡–可能无法分辨大象的头,躯干和茶壶之间的区别。同样,当区分马上的男人的雕像和马上的真实男人的雕像时,他们会迷迷糊糊,或者将婴儿握着的牙刷误认为棒球棒。而且请不要忘记,我们只是在谈论图像中基本日常物品的识别-猫,狗等。
计算机仍然无法识别(对人类而言)看似简单的图片,例如这张黄色和黑色条纹的图片,计算机似乎认为这是一辆校车。毫不奇怪,这项技术还处于婴儿阶段。毕竟,人类的大脑花了5.4亿年的时间才能演化成功能强大的电流形式。
计算机最擅长的是对大量数据进行分类并快速处理,这在放射线医师需要缩小可能引起医学疾病的X射线列表或营销人员想要查找所有图像时非常有用与他在社交媒体上的品牌相关。计算机正在识别的东西可能仍然是基本的-空腔,徽标-但是它是从更大的图片库中识别出它的,并且它正在快速地进行操作而不会像人的力量那样令人厌烦。
人类仍然会变得更好,但由于基本常识,人们可能会告诉您更多给定的图片。对于日常任务,人类的视觉功能仍然比计算机好得多。
也就是说,图像识别和计算机视觉的广阔前景是巨大的,尤其是当被视为更大的AI派的一部分时。计算机可能没有常识,但是它们确实可以直接访问实时大数据,传感器,GPS,照相机和互联网,仅举几例技术。从机器人灾难救灾和避免大型物体到汽车的高科技犯罪调查和增强现实(AR)游戏的飞跃,超越了Pokemon GO,计算机视觉的未来很可能取决于人类根本无法(或不会) )做。我们可以确定的一件事是:这将不需要5.4亿年的时间。