行业新闻
我们通常会认为监控摄像头是数字化的眼睛,监视着我们,或者是为我们进行监视,具体是哪种情况取决于你的立场。但实际上,它们更像是舷窗:只有当有人通过它们看时才有用。有时候这意味着会有人监看监控视频,通常是同时监看多个视频窗口。然而,大多数监控摄像头都是被动的。它们在那里作为一种威慑,或者在出现问题时提供证据。
但是,这种情况正在发生变化视频监控,而且变化的速度非常快。人工智能给了监控摄像头提供了能够匹配它们眼睛的大脑,让它们能够分析实时视频,而且不需要人类的干预。对于公共安全来说,这可能是一个好消息,帮助警察和应急救助人员能够更容易地发现犯罪和事故,并且有一系列的科学和工业上的应用。但是这也对隐私的未来引发了严重的问题,并给社会正义带来了全新的风险。
如果政府可以使用闭路电视视频监控跟踪大量的人,会发生什么情况?如果警察只要将你的脸部照片上传到数据库,就可以对你进行全城数字化跟踪,又会怎么样?或者你所在当地的商场的摄像头上运行的算法存在偏见,仅仅因为不喜欢某群青少年的样子,就发出警报召唤警察,又会怎么样?
虽然这些情景的出现尚需时日,但是我们已经看到将监控和人工智能结合的初步成果了。IC Realtime公司就是一个例子。该公司去年12月份推出的旗舰产品被谷歌用于闭路电视视频监控。这是一个应用程序及网络平台,名为Ella,它使用人工智能对视频流中的内容进行分析,并使之可供即时搜索。Ella可以识别成千上万的自然语言查询,让用户能够搜索镜头中的内容,找到包含了特定动物、穿着特定颜色衣物的人,甚至是包含了某款特定汽车品牌或型号的剪辑图像。
在一次网络演示中,IC Realtime公司的首席执行官Matt Sailor向《The Verge》展示了Ella的一个版本,该版本连接了监控一个工业园区的大约40台监控摄像头。他输入了各种搜索内容--"一个穿红衣服的男人"、"UPS货车"、"警车"--所有这些都在几秒钟内提取出了相关的镜头。然后,他缩小和时间范围和地点范围,并指出用户可以如何用拇指向上和向下滑动改善结果--就像Netflix一样。
人工智能监控从可搜索视频开始
Sailor表示:"假如有抢劫,你并不真的知道发生了什么"。他表示,"但之后有一辆吉普牧马人(Jeep Wrangler)向东飞驰而去。所以我们来搜索'吉普
牧马人(Jeep Wrangler)',然后就找到了。"在屏幕上,开始出现视频剪辑,显示不同的吉普牧马人(Jeep Wrangler)从镜头前滑过。这将是人工智能和闭路电视视频监控相结合的第一大优势,Sailor解释说:让你很容易找到你要找的东西。他表示:"如果没有这种技术,你所能知道的不会比你的摄像头更多,而且你必须从数个小时、数个小时又数个小时的视频中筛选内容。"
Ella运行在谷歌云(Google Cloud)上,可以从几乎任何闭路电视视频监控系统中搜索镜头。Sailor表示:"它在从单摄像头系统--例如保姆摄像头或者狗摄像头--一直到拥有成千上万摄像头的企业级系统中,都能工作得很好。"用户每月支付使用费用,起价为每个月7美元左右,总价会根据摄像头的数量增长。
IC Realtime公司希望能够针对各种规模的企业,但该公司也认为其技术也能够吸引个人消费者。这些客户已经通过"智能"家庭安防摄像头市场的急速发展得到了很好的服务,这些摄像头是由亚马逊、罗技、Netgear以及谷歌旗下的Nest之类的公司制造的。但是Sailor表示说这种技术和IC Realtime公司的技术相比就太简陋了。这些摄像头连接到家庭Wi-Fi上,并通过应用程序提供实时视频流,当它们发现有东西在移动的时候,会自动地将视频记录下来。但是,Sailor表示,它们无法区分闯入者和鸟类之间的差异,导致出现了很多误报。他表示:"它们是非常基础的技术,已经存在了很多年了。"他表示:"这里没有人工智能,也没有深度学习。"
这种情况不会持续很久了。虽然IC Realtime公司提供的基于云的分析功能可以升级现有的、傻瓜式的摄像头,其他一些公司则直接在他们的硬件中加入了人工智能。Boulder AI就是一家这样的创业企业,该公司用自己的独立人工智能摄像头推销"视觉即服务"。将人工智能集成到设备中的一大优势是它们不需要互联网连接就能工作。Boulder公司广泛地面向各行各业进行销售,为每家客户量身打造机器视觉系统。
该公司的创始人Darren Odom对《The Verge》表示:"应用程序真的是非常全面。"他表示:"我们的平台销售给了银行、能源公司。我们甚至有一个应用程序可以观察比萨饼,确定它们的大小和形状是否正确。"
"我们现在能够100%地识别爱达荷州的鳟鱼。"
Odom举了一个在爱达荷州建造水坝的客户的例子。为了符合环保法规,他们正在监测能够越过这个基础设施顶部的鱼类的数量。Odom表示:"他们以前安排了一个人坐在窗口看着鱼梯,数着有多少鳟鱼游过。"(顾名思义,鱼梯指的就是一条阶梯式的水槽,鱼类可以通过这条水道奋力上游。)"然后他们转移到了视频技术,有人(远程)进行监控。"最后,他们联系了Boulder公司,该公司为他们搭建了一个定制化的闭路电视监控系统以确定通过鱼梯上游的鱼的类别。Odom自豪地表示:"我们真的使用计算机视觉进行了鱼类物种识别。" Odom表示:"我们现在能够100%地识别爱达荷州的鳟鱼。" 如果说IC Realtime代表了这个市场的通用一端,那么Boulder公司就是展示了精品承包商的能力。不过,在这两种情况之下,这些公司目前所能够提供的还仅仅是冰山一角。就像机器学习在物体识别的能力方面取得迅速的进步一样,它分析场景、活动和动作的能力也有望迅速提高。一切都已经就位,包括基础研究、计算能力和训练数据集--这是创建有能力的人工智能的关键组成部分。视频分析的两个最大的数据集来自YouTube和Facebook,这两家公司都曾经表示希望人工智能能够帮助他们节制平台上的内容(不过两家公司也都承认还没有做好准备)。例如,YouTube的数据集包含超过45万小时带标签的视频,希望能够刺激"视频理解的创新和进步"。参与构建此类数据集的组织的广度让人对该领域的重要性有了一些了解。谷歌、麻省理工学院(MIT)、IBM和DeepMind都参与进来,开启了自己的类似项目。
IC Realtime公司已经在开发面部识别等高级工具了。之后,它希望能够分析屏幕上正在发生的事情。Sailor表示,他已经和教育行业潜在的客户进行过交谈,对方希望当学生在学校遇到麻烦的时候,监控能够识别出来。他表示:"例如,他们对打架的迅速通知感兴趣。"系统需要做的一切就是注意聚集在一起的学生,然后提醒某个人,这样他就可以检查视频内容,看看发生了什么事情或者亲自去调查。
Boulder公司也正在探索这种高级分析。该公司正在开发的一个原型系统的目标是分析在银行里的人的行为。Odom表示:"我们专门寻找坏人,并且探查一个正常人的行为和越界的人的行为之间的区别。" 要想做到这一点,他们正在使用旧的安全摄像头拍摄的视频来训练他们的系统,以发现异常行为。但是这种视频有很多的质量都非常低,所以他们也会找一些演员来拍摄自己的训练视频片段。Odom没有详细说明细节,但表示该系统将寻找特定的面部表情和行为。他表示:"我们的演员们会做一些类似蹲伏、推搡以及回头一撇之类的动作。"
对于监控和人工智能方面的专家来说,这些功能的引入充满了技术和道德方面的潜在困难。而且,和人工智能经常遇到的情况一样,这两个类别的困难是彼此交织在一起的。机器不能像人类一样理解这个世界,这是一个技术问题,但是当我们假设它们能够做到这一点,并且让它们为我们做决定时,这就变成了一个道德问题。
卡内基.梅隆大学的教授Alex Hauptmann专门从事这种计算机分析,他表示,尽管人工智能近年来已经在这一领域取得了巨大的进步,但是在让计算机理解视频方面仍然存在着非常根本性的问题。其中最大的一个就是摄像头的问题,这个问题我们已经不再会经常想到了:分辨率。
最大的障碍非常常见:低分辨率的视频
举个例子来说,一个神经网络经过训练,可以分析视频中的人类行为。这些工作是通过将人体细分为多个部分--手臂、腿、肩膀、头部等--然后观察这些小的部分在视频中从一帧到另一帧的变化来进行的。这样,人工智能可以告诉你是否有人在跑步,或者是在梳头发。Hauptmann对《The Verge》表示:"但是这取决于你所拥有的视频的分辨率。" Hauptmann表示:"如果我用一个摄像头对准停车场的尽头,如果我能分辨出是否有人打开了车门,就算是非常幸运的了。如果你就站在(摄像头)前面弹吉他,它就可以跟踪你每一根手指的动作。"
对于闭路电视监控系统来说,这是一个大问题,摄像头往往会有颗粒感,而角度也常常很怪异。Hauptmann举了一个便利店摄像头的例子,摄像头的目的是监控收银机,但是它也监视着面向街道的窗子。如果外面发生了抢劫,摄像头的镜头有一部分被挡住了,那么人工智能可能就会卡住。他表示:"但是我们作为人类,可以想象正在发生的事情,并且把它们拼凑在一起。可是电脑就做不到这一点。"
同样,虽然人工智能很好地识别视频中的相关事件(例如,某人正在刷牙、看手机或者踢足球),但仍不能提取重要的因果关系。以分析人类行为的神经网络为例。它可能会看到镜头并说"这个人正在跑步",但它不能告诉你他们之所以在跑步,是因为他们快要赶不上公共汽车了,还是因为他们偷了某人的手机。
这些关于准确度的问题应该让我们认真思考一些人工智能创业企业的宣言。我们现在还远未接近这样一个点:电脑通过观看视频能够获得和人类一样的见解。(研究人员可能会告诉你,要做到这一点可是太困难了,因为它基本上是"解决"智力问题的同义词。)但是事情的发展速度非常快。
Hauptmann表示使用车牌跟踪功能跟踪车辆是"一个已经得到解决的实际问题",在受控设置中的面部识别也是一样的。(使用低质量的闭路电视监控视频进行面部识别就完全是另一回事了。)对汽车和衣物等物品的识别也非常可靠,在多台摄像机之间自动跟踪一个人也是可以实现,但前提是条件是正确的。Hauptmann表示:"在一个非拥挤的场景中跟踪一个人的效果可能非常好,但是在拥挤的场景中,还是算了吧。"他表示,如果这个人穿着的是不起眼的服装,要做到这一点就特别难。
一些人工智能监控任务已经解决了;另外一些还需要继续努力
但是,即使是这些非常基本的工具也可以产生非常强大的效果。比如在莫斯科,一个类似的基础设施正在组装,将面部识别软件插入到一个集中式系统中,该系统拥有超过10万台高分辨率摄像头,覆盖了这个城市90%以上的公寓入口。
在这种情况下,可能会有一个良性循环,随着软件越来越好,系统会收集更多的数据,从而帮助软件变得更好。Hauptmann表示:"我认为这一切都会有所改善。"他表示:"这种情况正在出现。"
如果这些系统已经在工作了,那么我们就已经有了像算法偏差这样的问题。这可不是一个假设的挑战。研究表明,机器学习系统吸收了为它们编写程序的社会的种族歧视和性别歧视--从总是会将女性放置在厨房的图像识别软件到总是说黑人更容易再次犯罪的刑事司法系统,比比皆是。如果我们使用旧的视频剪辑来训练人工智能监控系统,例如采集自闭路电视视频监控或者警察佩戴的摄像头的视频,那么存在于社会中的偏见就很可能会延续下去。
Meredith Whittaker是纽约大学(NYU)关注道德的"AI Now"研究所的联席主任,她表示,这个过程已经在执法过程出现了,并将扩展到私有部门。Whittaker举出了Axon(以前被称为Taser)的例子,该公司收购了几家人工智能公司,以帮助其将视频分析功能集成到产品中。Whittaker表示:"他们得到的数据来自警察佩戴的摄像头,这些数据告诉了我们很多关于单个警务人员会关注谁的情况,但是并没有给我们一个完整的描述。 "她表示:"这是一个真正的危险,我们正在将带有偏见的犯罪和罪犯的图片普遍化。"
ACLU高级政策分析师Jay Stanley表示,即使我们能够解决这些自动化系统中的偏见,也不能使它们变得良性。他说,将闭路电视视频监控摄像头从被动的观察者转变为主动的观察者可能会对公民社会产生巨大的不利影响。
"我们希望人们不仅仅拥有自由,还要感受到自由。"
Stanley表示:"我们希望人们不仅仅拥有自由,还要感受到自由。这意味着他们不必担心未知的、看不见的观众会如何解释或曲解他们的每一个动作和话语。" Stanley表示:"要担心的是人们会不断地自我监控,担心他们所做的一切都会被曲解,并给他们的生活带来负面的后果。"
Stanley还表示,不准确的人工智能监控发出的错误警报也可能导致执法部门和公众之间更加危险的对抗。比如说,想想看Daniel Shaver的枪击事件吧,在看到Shaver拿着枪后,一名警察被叫到德克萨斯州的一个旅馆房间里。警长Charles Langley在Shaver按照他的要求趴在地面上时,开枪射杀了他。而Shaver被发现持有的枪是一支粒丸枪,这是他用来从事他的害虫控制工作的。
如果一个人可以犯这样的错误,电脑还有什么机会?而且,即使是监控系统变得部分自动化,这样的错误会变得更加常见还是更少?Stanley表示:"如果技术出现在那里,就会有一些警察不得不照看那里。"
当人工智能监控变得普及的时候,谁来管理这些算法呢?
Whittaker表示,我们在这个领域看到的只是人工智能大趋势的一部分,在这个趋势中,我们使用这些相对粗糙的工具,尝试着根据人们的形象对他们进行分类。她列举了去年发表的一项有争议的研究作为一个类似的例子,该研究声称能够通过面部识别来确定性取向。人工智能给出的结果的准确性值得怀疑,但批评人士指出,它是否有效并不重要;重要的是人们是否相信它有用,并且是否会仍然使用数据做判断。
Whittaker表示:"令我感到不安的是,许多这样的系统正在被注入我们的核心基础设施之中,而且没有让我们可以提出关于有效性问题的民主程序,也没有通知大家将要部署这些系统。"Whittaker表示:"这不过是正在出现的又一个新的例子:算法系统根据模式识别提供分类并确定个体类型,可是这些识别模式是从数据中提取的,而这些数据里包含了文化和历史的偏见。"
当我们向IC Realtime公司询问人工智能监控可能如何被滥用的问题时,他们给出了一个在科技行业常见的答案:这些技术是价值中立的,只是如何使用它们以及由谁来使用它们才决定了它们是好是坏。Sailor表示:"任何新技术都面临着有可能落入不法之徒的手中的危险。"Sailor表示:"任何技术都是如此……而我认为在这个问题上,利远大于弊。"