随着近几年人工智能的快速发展,人脸识别、视频结构化和大数据分析等技术不断完善,原本用途单一的安防产品功能逐步走向多元化。同时,安防产业开始与交通、社区、港务等多领域进行融合,安防的边界越来越模糊,安防产业已经进入一个全新的泛安防时代。
据IDC Global DataSphere预测,2020全球视频监控产生的数据约18.1PB (1PB=1024TB),占同期物联网总数据量83.1%,构成了物联网数据的主体。安防领域视频摄像头的分辨率越来越高,部署场景也越发广泛,从而导致数据规模高速增长,这给传输带宽及存储带来了很大的压力,也提出了更高的要求。
然而在实际应用中,出于各种人力和技术条件的限制,这些数据的利用效率很低。由于视频数据是非结构化数据,在缺乏以AI为代表的结构化手段时,视频数据利用率非常低。基于AI的智慧安防系统能够实现获取、存储和分析大量的监控视频数据,并通过复杂的深度学习算法来执行视频分析,给应用领域带来显著的经济效益和业务增长。
如果将AI直接部署到监控摄像机,人工智能可以对视频数据进行结构化处理和分析,提取对我们有用的信息,从而激活数据,提高安防效率。然而,在落地实施的过程中,存在诸多挑战。一方面是应用场景碎片化,各行各业的AI需求不同,很难对算法进行标准化。另一方面,将AI部署到前端摄像机,需要具备端侧算力的AI芯片,行业内可以提供这类芯片的厂商还不多。
智能安防的“智能”主要表现在哪些方面?
传统的安防是解决"看得见"、"看得清"的问题,而智能安防要解决"看得懂"的问题。以往靠人工方式去查看视频,现在智能安防会把"车水马龙"类的有用信息记录下来,而把"风吹草动"类的无用信息过滤掉。例如,针对在电梯里的火情识别、社区的高空抛物监控,依靠人力监控难免有疏忽或延时,但是AI具有"关注车水马龙,忽略风吹草动"的能力,可以马上识别并预警公共安全风险,提高安全管理效率。
安防“智能化”就是将原有依靠人来分析、查看的数据通过AI算法实现自动识别分析,将海量数据转化为有分析结果的有效信息。以视频分析为例,智能安防系统通过对视频图像的自动分析和处理,可以识别不同的人、物体、环境状态,发现监控画面中的异常情况,实时警报和反馈信息。对目前的视频监控系统实现智能化升级,提升对数据的有效利用,这是其智能化的最大价值。从更广的层面上来说,智能安防盘活了已有的视频监控数据,发挥了数据的潜力,并且一定程度上替代和减少了人力作业。
智能安防的成像性能不断提升,例如服务于大场景中人脸及车牌等关键信息识别的智能化功能时,摄像头图像传感器(CIS)分辨率的提升必不可少,现已从原先的几十万像素提升到当下主流的几百万像素,分辨率也一再提高至4K乃至8K,为的就是看得更高清与更全面。而低照度成像、高动态范围、高温适用性,以及色彩呈现力等性能的精进也将进一步为智能化升级添翼。
从应用层面看,边缘计算与5G技术的加持使安防产业正逐步向包括智能交通以及智能港务等智能化应用场景延展与渗透,无论是本地还是云端处理数据,都让安防摄像头从原来的仅仅“看得见”逐步向高动态范围、低功耗等性能方向延展。同时,随着人脸识别及车牌识别等大数据识别应用的出现,安防将从原来的“事后发现”逐渐进化到能够进行“预判、预警”等功能,这也是智能化的一个重要体现。
实现智能安防的三大硬核技术
智能安防系统主要有三个关键部分组成:智能感知、视觉/视频处理、AI计算。由于软件和算法与特定应用场景有关,我们只讨论硬件部分。
智能安防系统流程图
摄像头的图像传感器(CIS)主要完成智能感知功能,有些厂商开始为其CIS芯片增加本地处理和计算能力,让摄像头更为智能。这一细分领域的厂商主要有豪威科技、安森美和索尼等,国内初创公司思特威在智能安防领域也开始暂露头角。
传感器与边缘AI的融合让摄像头更智能
伴随AI的不断普及,安防监控行业对CMOS图像传感器成像的清晰度以及场景覆盖率的要求将会持续提升,随之驱动了从720P-1080P-2K/4K的分辨率升级。此外,图像传感器的暗光成像、产品性能、色彩表现力以及近红外成像性能也为泛安防化的落地发展助力。
思特威副总经理欧阳坚认为,安防场景除需要CIS提供更高清的图像之外,还需要应对各种复杂光线下的挑战,除了在光照良好的白天需要提供细节清晰、色彩逼真的图像信息外,晨昏及夜间等光线复杂的应用场景则对CIS夜视性能的要求更为严苛。为此,思特威开发的SFCPixel技术可有效提升CIS的感光度,从而达到更好的夜视效果。
此外产品性能与近红外成像性能也是智能安防时代CIS的发展重点。除了安防产品的升级迭代外,安防CIS的像素尺寸也逐渐提升至2.0μm以实现更好的感光性能,而对于超低照环境中的成像,思特威近期推出了第二代近红外感度NIR+技术,相较第一代NIR+技术在感度方面显著提升,在超低照度850/940nm红外光补光下可达到可见光下的清晰度,即使在微弱星光场景下也能清晰获取4K高清影像画面。
以前图像传感器主要为人眼服务,而在AI进一步发展的现阶段,图像传感器的服务对象逐渐转变为机器与智能后端平台,其成像要求也从看得见转变为快速捕捉(高帧率)、无形变(全局快门)和非可见光下成像(近红外感度NIR+技术)来提供更加可靠精细的影像基础。思特威的SmartGS技术将BSI像素设计工艺与全局快门图像传感器设计巧妙结合在一起,可提供信噪比更佳、灵敏度更高与动态范围更大的成像性能,通过全局快门的曝光方式,保障图像不会因物体高速运动产生失真,可进一步为智能交通系统(ITS)、人脸检测以及生物识别等需要边缘AI计算的新兴应用提供更优质的影像信息。
为给后续图像传感器的智能化升级打下扎实的基础,思特威还开发了集成人工智能算法的“AI智能传感器平台”,该平台可以在图像传感器上集成边缘AI计算,能有效地提高关键区域(如人脸或车牌)的分辨率,降低延时,并拥有高帧率及超低功耗,可为人脸识别、高级驾驶辅助系统、无人驾驶、机器人等先进的人工智能应用解决因帧率不够高、分辨率不足而导致的响应慢、延时高及识别率低等问题,提升整个人工智能系统的能效比。
“数据就地处理”需要更智能的视觉/视频处理器
从视觉AI分析的过程来看,对于需要实时/近实时处理,或者涉及数据隐私的场景往往在智能边缘平台进行AI推理和识别。需要传输至云端或服务器进行集中处理和计算的数据一般有两类:监管或者其他法规要求;需要利用数据进行重复训练,模型迭代。以人脸识别为例,人脸检测和抓拍是在本地通过设备端实时进行的。而对抓拍到的人脸进行识别的工作,可能涉及十万级或以上的数据库比对,则可交给云端,通过更大的算力去快速完成运算。
“数据就地处理”的需求让边缘计算成为增长最为迅速的市场。除了云端和前端AI芯片市场,边缘端已成为很多AI芯片创企的突破点。目前市场上的边缘计算大多面向的是4-16路的视频分析处理(车路协同、加油站等为典型应用场景),或支持200路左右的小型数据中心(采油厂、变电站等为典型应用场景)。在这些场景中,用户的需求明确,市场对低延迟、数据隐私以及低成本和超节能的可用性日益关注。对于工业、车路协同这些有大量数据并要求低延时响应的应用场景,芯片的算力性价比成为核心的考量因素。
亿智电子安防产品副总裁魏唯认为,图像/视觉处理器和视频处理器芯片要实现“数据就地处理”,就需要各模块之间的协同运行,有效数据首先要经过ISP获得清晰的图像数据,再让NPU(神经网络处理器)对数据进行实时计算。端侧算力1.5T可以满足同时运行3-5种算法的需求,例如同时进行人脸检测、识别、跟踪。要在端侧部署AI算力,在性能上需要SoC有很强的集成能力,包括ISP、NPU、视频编解码等模块。
亿智针对安防应用开发的AI SoC芯片SV826和SV823主要面向视频编解码AI摄像机产品,采用智能H.265+编码技术,支持最高4K超高清视频录像;集成专业安防级别的ISP,支持2~3帧宽动态融合和自适应降噪,在逆光和低照度环境下表现出色。此外,这两款芯片还搭载了亿智第二代自研NPU,具有1.5T/0.8T算力,可高效支持人脸识别/检测、人形识别、车牌识别、车型识别、视频结构化,以及智能行为分析等智能应用场景。
相较传统的图像/视频处理器,AI视觉SoC芯片集成了NPU,这是SoC中的AI计算单元。由于是专门为AI加速而设计的处理单元,在计算的速度和准确率都会有大幅的提升。据Yole预测,到2025年安防芯片市场规模将超过40亿美元,其中三分之二是具有AI功能的芯片。
最近安霸针对安防市场发布了两款AI视觉芯片:CV5S和CV52S。这两款SoC基于CVflow架构,采用5nm工艺,拥有超低功耗,可同时支持4K编码和强大的AI处理。CV5S适合覆盖更大范围、更远距离的安防摄像机系统应用,如城市户外环境或大型建筑,这里场景需要多个视觉传感器进行360度全景监控。而CV52S则是为具有强大AI性能的单目安防摄像机而设计,这类摄像机需要更清晰识别场景中的人或物体,包括远距离识别人脸和车牌号码,比如智能交通摄像机。
安霸CV5S模块框图。
由清华大学可重构计算研究团队创办的北京清微智能开发的可重构计算芯片TX510,可以依据应用和算法重构执行计算的硬件资源,具有按需即时重构、高能效、低功耗等特点。清微智能创始人兼CEO王博大致介绍了基于TX510的人脸识别系统产品流程。首先,红外传感器自动感应人体,激活TX510 系统。然后,开启3D 图像采集、近红外图像采集和可见光图像采集(进入ISP 引擎)。接着进行人脸检测、活体联合检测,最后完成人脸识别和特征比对。
基于TX510的人脸识别系统产品流程。
可重构芯片应用于图像信号处理有如下优势:快速在芯片上实现最新的图像算法、更加强大的图像处理性能、为客户提供自己定制ISP算法的可能,并可延长产品的生命周期。
在产品形态上,添加AI能力的边缘计算载体包括智能安防摄像头、智能网关、盒子、微型数据中心等。这些设备和应用对于多种连接和数据移动性、实时决策、本地化计算能力、高效存储这些功能和技术指标都有比较高的要求。
智能安防AI计算需要提高算力性价比
AI视觉芯片做的是领域专用计算,相比于通用计算芯片如CPU/GPU,可以定制化运行AI领域的视觉分析应用,从而提供更高的计算效率,用更低的成本、更低的功耗提供更高的计算性能。AI计算的优势在于:在恒定的算力需求下,例如数据中心场景下的100台AI服务器,可以以更低成本、更优的计算性能、更低功耗满足AI算力需求,所需的芯片数量越少或者芯片成本更低,从而大幅降低人工智能应用落地所需的总成本。
鲲云科技王少军博士认为,提升芯片利用率是提供高算力性价比最根本的方式,在这方面鲲云科技基于自主研发的定制数据流架构,打破传统底层架构下的算力瓶颈,在芯片利用率上实现了十倍以上的提升。
鲲云AI视频分析结构图。
以一个具体场景为例,在一个使用100台AI服务器来处理25000路视频分析的数据中心场景中,如果采用AI专用且更高算力性价比的数据流AI芯片(如鲲云CAISA芯片),能在实测算力上高出4.12倍的性能,那么对应地每台AI服务器的处理能力也提升了4.12倍,也就是说处理的视频路数更多了。同样一个应用达到同样的性能,从原来需要100台AI服务器减少到只需要25台AI服务器,这个4.12倍的性能提升意味着对于数据中心这个场景有70%以上的成本降低,这是人工智能视觉芯片为安防等视频处理应用带来的价值。
那么,在为安防监控应用选择AI芯片时,应考虑哪些因素?
1. 计算精度:AI训练基本都是FP32的模型,在推理阶段,客户越来越愿意使用低精度如INT8,应考虑特别在深度学习模型中精度损失和算力、内存带宽使用、模型参数存储之间的平衡;
2. 实测性能:理论峰值算力需要结合芯片利用率来判断,实测算力才是算力真正发挥到应用上的性能。比如以指令集芯片和数据流芯片的对比来看,数据流芯片采用计算流和数据流重叠运行方式消除空闲计算单元,突破指令集技术对于芯片算力的限制,在芯片利用率上提升了10倍;
3. 视频解码和图像解码能力:解码能力的强弱也是决定分析视频路数、图像张数的吞吐能力的重要决定因素;
4. 算力和工具链的软件易用性:需要关注AI芯片是否可以完整支持Caffe,Tensorflow,PyTorch等AI框架,如典型CNN模型中的常见算子,甚至是自研算子,需要芯片配套的端到端编译工具链;
5. 算力算法一体化:在落地应用的过程中,所有的深度学习算法最终都需要附着在芯片上,完成最后部署。AI芯片除了自身性能,更需要适配场景。针对安防领域不同的应用场景,算力算法一体化的端到端解决方案才真正实现了软硬件的深度融合。
智能安防值得关注的未来新兴技术及应用
安防作为一个大的领域,除了人脸识别外,在针对人、车、物及行为的识别领域也涌现出了很多的应用需求。智能安防在向垂直领域不断拓展,基于视频图像应用的智慧能源、智慧工地、智慧园区、智慧港口等将迎来高速发展的时期。除了传统的交通、公安、社区等领域,视频监控未来在一些新兴领域会有更大发挥。例如,工业中的产品缺陷监测、安规测试;农业中的农作物病害检测、农产品无损检测等;线下零售行业的柜台监控等。而随着智能安防应用的拓展,AI算法方案将不断迭代和推陈出新,软硬件一体化的整体方案将会成为行业的刚需。
智能安防为安防监控摄像头广泛覆盖及深入落地营造了良好的成长环境。未来3-5年,安防监控将朝着“智能、精确、高效”的方向发展,而智能安防也将不仅限于安防行业,将会衍生出诸如人脸识别、物品检测、车牌识别、智能卡口、智能家居、智慧城市以及ITS智能交通系统等更多的泛安防细分领域,而暗光成像性能、近红外成像性能、色彩表现力、低功耗以及高温适用性等成像性能也将随着视频影像需求标准的提升而发展。
亿智电子的魏唯认为,智能化的前端IPC摄像机在未来3-5年内将替代现有的IPC,那时将不再有不具备AI功能的IPC摄像机,这需要带端侧算力的AI SoC芯片去推动实现。目前,搭载亿智电子AI芯片的摄像机已经可以实现人脸人形识别、越界检测与预警(如翻墙识别)、人员闯入检测与预警(如人员进入配电箱等危险区域的检测与预警)、客流识别等智能应用。已经安装了IPC摄像机的位置都有监控需求,未来可以深挖更多的应用场景。
在技术方面,随着NPU等AI加速器技术和传感器技术的发展,以红外热成像技术的应用为例,这类不可见光同样蕴含着很多对人类有用的信息,同时也需要NPU来支持相关算法的计算处理,才能真正解决实际问题。热成像设备收集到平面的温度数据,而利用AI算法,可以计算得到三维立体的数据。这样一来,我们不使用可见光形成的图像,仅利用处理过的数据信息,来做老人和小孩看护,既能解决用户隐私问题,又能达到更有效的监护效果。在未来,对端侧算力的需求会越来越大。