89 机器视觉全球八位科学家谈计算机视觉眼见为实.docx

资源描述

89 机器视觉全球八位科学家谈计算机视觉眼见为实.docx

《89 机器视觉全球八位科学家谈计算机视觉眼见为实.docx》由会员分享，可在线阅读，更多相关《89 机器视觉全球八位科学家谈计算机视觉眼见为实.docx（10页珍藏版）》请在冰豆网上搜索。

89 机器视觉全球八位科学家谈计算机视觉眼见为实.docx

89机器视觉全球八位科学家谈计算机视觉眼见为实

【机器视觉】全球八位科学家谈计算机视觉：

眼见为实

智东西

微信号ai-cps

功能引见OT技术（工艺+精益+自动化+机器人）和IT技术（云计算+大数据+物联网+人工智能）深度融合，在场景中构建：

外形感知-实时分析-自主决策-精准执行-学习提升的机器智能认知系统，实现产业转型升级、DT驱动业务、价值创新制造的产业互联生态链。

2018-09-04原文

收录于话题

视觉是人类认知世界的重要组成部分，而计算机视觉作为人工智能的核心技术之一，近几年的进呈现状如何？

在目前的人类生活中有这样的使用？

能否已经超越人类的眼睛？

将来又将有怎样的进展前景？

近日，腾讯优图与《科学》（Science）杂志共同发布《Seeingisbelieving:

R&Dapplicationsofcomputervision》（眼见为实：

计算机视觉的研发和使用）主题报告，通过全球计算机视觉领域的专家访谈，为大众带来当下计算机视觉技术进展的全面解读，也为即将到来的计算机视觉峰会拉开序幕。

以下为报告全文（中文译文版）。

眼见为实：

计算机视觉的研发和使用

人工智能（AI）已经只是一种存在于科幻领域的科技，而现在，争辩试验室已经不断研发出了各种使用AI的日常产品。

AI技术的进步很大程度上得益于计算机视觉的进展。

计算机视觉技术关注的是构建能够收集和处理视觉信息的软件。

使用计算机视觉可以识别照片中的人物、读取X光片、进行工厂机器人系统的智能升级，但它的影响范围远不止于此。

大多数人都对本人的视觉习以为常，殊不知要拿起叉子或接住球，我们的大脑要进行大量的运算。

计算机变得足够快速、强大和小巧来实现计算机视觉的实际使用，不过是这几年的事情。

最先进的计算机视觉技术要运用到深度学习，而深度学习是AI的一大领域，灵感来自于人脑。

深度学习算法使用的人工神经网络（ANN），是指能够分析并相互传递信息的相互连接的节点层，与神经元的通信机制类似。

假如我们向神经网络呈现一张自拍照，一层神经元将会识别类似于面部轮廓的粗线条；另一层神经元会关注五官之间的区域，例如眼睛到嘴巴的距离；还有其他神经元会担当观看耳朵的外形。

藉此，该算法可推断出这是不是一张人物照片，甚至看出这人是谁。

“在大多数计算机视觉任务当中，神经网络都能轻而易举地生成最佳算法，”腾讯优图试验室杰出科学家贾佳亚说道。

腾讯总部位于中国深圳，是互联网服务和产品、消遣及人工智能的全球领导者。

像人工神经网络一样，计算机视觉技术工程师也在试图仿照人类视觉系统的运作机制。

但是机器比人更有优势的一处是，它不需要像人类那样依靠可见光，还能使用传感器更清楚地看到世界。

“在人脸识别、图像分类等众多任务中，计算机视觉能比人类视觉完成的更优秀。

但在其他需要推理的任务，计算机视觉还有很长的路要走。

”贾佳亚表示，“人类能轻易明白物体彼此之间的关联，我们看到一张图就能编出一个故事。

但计算机还远不能达到这种程度的理解力气和想象力。

”

随着计算机视觉技术的不断进展，它将会带来更多新的发觉。

计算机视觉和AI都处于各自进展的初始阶段，还有很多东西值得探究。

计算机视觉技术的进步可能会推动AI的迅猛进展，把科幻小说的情节全部变成现实——比如无人车、机器人管家，甚至远距离太空旅行。

在实践中学习：

AI 的工作原理

跟大多数AI系统类似，计算机视觉需要学习浩如烟海的数据。

争辩人员查阅数据并依据其特征认真为数据添加标签，这些特征就是他们期望AI去理解的东西。

就计算机视觉的任务而言，争辩人员会收集成百上千的照片用于分析。

加标签的数据会成为范例，据此训练AI进行分类或查找规律。

为了测试AI的学习效果，争辩人员会呈现新的、未加标签的图像，测试其能否能够正确分类。

除了要在收集、标注和筹备浩大材料的工作中投入人力外，另一个重要妨碍就是运转训练算法需要的大量计算力气。

费用低廉的在线服务，让争辩人员可以在云端训练算法，而无需为强大的计算机投入数千美元，不过，要得出训练结果仍需数小时甚至数日。

对着镜头浅笑：

图像和视频识别

人工神经网络领域最重要的进展之一出自ImageNet。

ImageNet收集了1400万标签图像并于2009年发布。

ImageNet挑战赛要求参赛者设计一个能够跟人类一样对比片进行分类的算法，但一直没有毁灭获胜者。

直到2012年，一个使用深度学习算法的参赛队伍取得了显著优于以往尝试的结果。

今日，人们与计算机视觉产生交互的最常见的几种方式包括图像自动标记和拍照面部识别等，都是基于ImageNet获胜的技术。

这些使用有助进行网上购物可视化搜索、自动标注社交媒体照片等特定任务。

除了图像识别外，这项新科技也推动了照片编辑技术的进展。

图像分割算法是计算机视觉的组成部分，可以挂念机器将一张图片分成不同的部分，例如识别背景和前景中的人物。

用户可快速编辑照片，达到专业修图的效果。

视觉识别力气目前也使用于视频。

计算机视觉算法可以查看摄像机的视频流，并且标记重要部分，这样人们就无需反复回看长达数小时的视频。

了解视频中人物的心情是一项争辩人员正在开展的工作，不过有些机构已经领先接受了这类技术。

例如坐落在中国东部浙江省的杭州第十一中学，正在尝试用摄像头追踪同学的课堂行为，这些摄像头被称为“慧眼”。

让机器人拥有正常视力

将2D图像转化成3D数据，带来了一系列不同的挑战以及众多的新机遇。

给机器人赐予计算机视觉就是一个正在呈现出前景的领域。

机器人在20世纪60年月开头投入制造业使用，这些安装可以提升重物，执行反复性任务，并且可以一次进行数小时的精确测量，从而轻松地赛过人类。

斯德哥尔摩KTH皇家理工学院的机器人学教授DanicaKragic说：

“这一领域一直关注的是建筑出那些可以完成人类无法完成任务的机器人。

”

Kragic表示，由于人类有40%的大脑努力于处理视觉信息，假如要制造能够仿照并参与我们世界的机器，了解它们在多大程度上需要视觉信息是格外重要的。

“我们人类在做任何事情时都会自然而然地使用视觉反馈，”Kragic说。

能够处理视觉信息的机器可以在工厂中完成更简约的工作，甚至进入了我们的家庭。

某些技能（例如，拾取会因压力而转变外形的松软物品）对机器人来说照旧是遥不行及的。

这是由于人类在观看时，获得的不只仅是视觉信息；我们还会获得有关物体物理属性的线索，以及与之交互所需要的物理学问。

机器需要能够收集这类信息，才能像人类一样毫不费劲地穿行在物理世界中。

“在五官感觉当中，视觉是最重要的，由于它赐予了人类理解这个简约世界的力气。

”贾佳亚说，“同样地，计算机视觉就是为了让计算机能够像人类一样观看环境并能跟环境互动。

”

赐予机器人能够更好地了解世界的传感器是该技术的下一个迭代，它可能让机器人完成在今日尚无法实现的任务。

即将上路：

自动驾驶汽车

自动驾驶汽车是AI开发领域中获得资金最充裕、最受关注的领域之一，全面了解世界对于自动驾驶汽车（AV）也是至关重要的。

除了摄像头，大多数无人驾驶汽车使用激光雷达、雷达、GPS和感知算法进行导航。

“我们使用的很多算法都来自计算机视觉，但现在它不只仅是关于摄像头数据，”多伦多高校副教授兼优步多伦多高级技术集团担当人RaquelUrtasun引见说。

“我们想给汽车装上的，不只仅是我们的眼睛。

”

像优步这样的公司期望到2020年前能实现自动驾驶汽车上路和载客。

这些汽车只会在事后选定的路线上行驶，或需要有人坐在驾驶员座位上，以便在毁灭任何问题时能够手动接管。

这项技术最终的目标是实现真正自主，使得乘坐者除了留意路况外，还可以做其他活动。

Urtasun表示，为了实现这一目标，需要在硬件和软件两方面都取得进步。

在硬件方面，激光雷达可能花费数万美元，这使得大规模部署成本太高；在软件方面，工程师需要找到一种方法来使AI具备归纳、区分不同物体的力气。

假如一个人类驾驶员在道路上看到一些出人预料的东西（比如一条坠落的电源线），他们会晓得该当绕过电线。

而假如一辆自动驾驶汽车遇到训练中没有经受过的事情，它可能无法平安地做出反应。

Urtasun表示，虽然自动驾驶汽车现在尚未迎来进展的黄金期，但她对本人在改进传感器和训练算法上的努力能够无效使用照旧布满期望。

Urtasun进一步引见，侥幸的是，“这项技术能够处理很多其他问题。

”改进的激光雷达可以使地图测绘和土地调查愈加精确，甚至配备传感器的非自动驾驶汽车也可以挂念改善交通情况。

特快专递：

无人机

汽车不是争辩人员独一期望能够自动驾驶的东西：

无人驾驶飞机也正在接受自动飞行的训练。

无人机争辩与自动驾驶汽车争辩面临着同样的难题。

高质量的训练数据既困难又昂贵，不同的飞行方式意味着无人机需要接受不同的新场景训练，而且法规使得在某些领域难以进行测试。

即便是已经受过训练，飞行过程照旧会格外困难。

“任何尝试过把握无人机的人都晓得这不是件简约的事情，”比利时争辩型高校天主教鲁汶高校的教授TinneTuytelaars说道。

不过，与自动驾驶汽车不同，无人机犯错的成本更低。

“假如一架无人机坠毁，”Tuytelaars耸了耸肩，“也不是件什么大不了的事。

”

无人机已经可以投入到诸如帮忙救灾和管道检查等的使用。

有朝一日它们将会可以进行送货并供应载客服务。

像亚马逊和波音这样的公司已经在测试无人机，将来它们可能会像现在的邮递员那样投递包裹。

在某些情况下，多架无人机可能毁灭在同一个空域内，并且可以比人类飞行员更好地实现彼此间飞行的协调。

使它们自动飞行意味着可以降低成本，将技术带到全世界更多人和公司的手中。

机器人医生

除了交通工具，计算机视觉给医疗领域带来的变化是最显著的。

AI算法已经可以比放射科医生更好地从医学影像中识别出病症，例如骨折和肺炎。

“大数据的迸发，尤其在医疗领域的迸发，意味着我们能获得更多的数据来进行争辩。

”西班牙奥维耶多高校计算机学系助理教授BeatrizRemeseiro表示，“我们正在利用数据去处理比以往更简约的难题。

”

去年，谷歌宣布开发出新的图像识别算法，可用于检测糖尿病视网膜病变的迹象，这种病变假如不准时医治会导致失明。

这种算法能媲美人类专家，可以在患者视网膜的照片中发觉小动脉瘤，这种动脉瘤是病变的晚期迹象。

2017年，腾讯也发布了一款用于医学领域的AI产品——腾讯觅影，能够通过扫描上消化道内镜图片筛查食管癌，对晚期食管癌的识别精确率高达90%。

目前，腾讯觅影已经使用于中国100多家医院，将来也将帮忙诊断糖尿病视网膜病变、肺结节、宫颈癌及乳腺癌等。

其他运用AI技术的工具也被用来更早地发觉中风，为患者供应更好的生存机会。

美国食品和药物管理局最近宣布将简化流程，以便挂念AI 产品更快地获得批准。

当然，这些工具并不会很快就替代医生，它们起到更多是顾问的作用，而非取代从业医师。

计算机视觉可以提高工作效率，并使医生短缺地区的人们能得到更多医疗服务。

这些创新技术也正在被用来最大限度地削减对人体的侵入性危害。

例如，CT扫描比X射线能猎取更多信息，但会使患者暴露在更大的辐射中。

AI则可以对X光片进行分析后，给医生供应相当于CT扫描的信息。

“医学影像是通过计算机视觉可以供应更多信息从而真正产生影响的领域，”康奈尔高校计算机科学系教授、谷歌争辩所争辩科学家RaminZabih表示。

“医学史已经证明，假如医师可以获得更多的数据，这可能意味着能更好地挂念到患者。

”

远和近：

边缘设备和航天器

全部这些领域都令人印象深刻，计算机视觉的将来会愈加光明。

即将开头影响该行业的最大变化之一，就是边缘设备——在两个网络的边界把握数据流转的硬件。

大多数AI处理需要在大型近程云服务器上完成，由于运转这些算法的计算密集程度很高。

另一方面，人们制造了边缘设备，从而具有足够的处理力气能在本地完成工作。

随着像Nvidia和Facebook这样的公司开头制造特地用于运转AI的芯片，边缘设备正在变得越来越普遍。

这将可以实现更快、更平安的数据处理，并且能让用户通过本人的数据进行更多AI自定义训练，添加个人结果的定制程度。

“它将推动更多的创新，”总部位于加利福尼亚的Movidius公司前首席执行官RemiEl-Ouazzane表示，该公司为计算机视觉设计公用的低功耗处理器芯片。

目前RemiEl-Ouazzane也担当英特尔AI产品集团首席运营官，这是另一家生产半导体芯片和微处理器的加州科技公司。

El-Ouazzane表示，从智能家居设备和监控摄像头到自动驾驶汽车，数十亿台设备都可以运用AI技术并在边缘设备上工作。

这还将制造能够找到失踪人员的技术（例如，通过扫描人群图像），或者可以在孩子睡觉前没有刷牙的时候能够提示父母。

“问题不是‘能不能实现’，而是‘什么时候实现’，”他说。

在边缘设备的微世界之外，天文学家们也对计算机视觉特殊感爱好，他们从无尽太空中收集到大量数据集并进行争辩。

Kaggle是一个用于猜想建模和分析竞赛的在线平台，在Kaggle上就有一个竞赛利用深度学习和计算机视觉技术让争辩人员能够通过观看天文图像发觉更多关于支配我们宇宙的暗物质的相关信息。

此外，还有一个努力于通过AI促进探究太空的争辩孵化器。

前沿开发试验室（FDL）是美国航空航天局（NASA）与英特尔AI、谷歌云、洛克希德和IBM等公司共同建立的合伙机构。

FDL将天文学家和计算机科学家带到了加利福尼亚州硅谷共同工作8周，处理诸如了解太阳耀斑、绘制月球地图和查找小行星等问题。

依据FDL创始人之一JamesParr的说法，假如没有计算机视觉，方案就无法成功。

现实上，位于美国加州帕萨迪纳的NASA喷气推动试验室（JPL）对于摄像技术的制造起到了至关重要的作用，该技术影响了如今的大部分计算机视觉软件。

“计算机视觉与太空方案之间存在共生关系，”Parr说。

“但这个议题在太空行业的争辩度还不足够。

”

太空探究将同样遭到影响，由于AI对于前往火星以及更远的地方至关重要。

太空旅行者和地球指挥中心之间的通信滞后意味着系统必需要能够做出自主打算，而这些决策很多都是由视觉数据来推动的。

“随着我们不断向外探究，我们需要机器人和自治系统为宇航员做好预备并供应帮忙、建筑结构、定位并提取资源，”Parr说。

“这是发觉和探究过程中感动人心的时辰。

”

探究计算机视觉将如何转变地球上的生活，同样令人感动。

随着AI扩展到更多领域并进展出新功能，它可能会遇到新的技术难题。

但是，当我们回顾AI的历史时，给计算机供应视觉的力气可能是最重要的一项进步。

拥有视力的机器将带领我们走向更光明的将来。

工业互联网

展开阅读全文