前瞻打造超级「怪兽」,商汤想要驯服AI长尾
目前用人工智能(AI)炫技的展示已经被行业解决方案替代。人工智能改变各个行业已经全面展开,AI从天上到了地下,将改变身边的每一件事、每一个行业。
要加速AI的渗透行业角落,AI赋能成本必须降下来,使用门槛必须降低。商汤认为,整个行业需要通用性更强的模型,用一个模型支撑更多的任务,在通用模型下再去做小的场景模型,成本就会降低。不过,模型的通用性越强,需要的数据、算力往往也越多,这就是商汤建设 AI 大装置的底层逻辑。
2020年4月,国家发改委在例行发布会上首次明确「新基建」范围,将数据中心和智能计算中心都作为算力基础设施,纳入新基建当中。智能计算中心也成为近期各家中国科技企业都在力推的项目。
在去年的世界人工智能大会上,商汤宣布,将在上海布局人工智能平台,整体投资50多亿元,大部分由商汤自己出资。与传统IDC不同,这个超算中心要满足人工智能时代高交互高通量的需求。
撰文 | 吴昕
「我非常喜欢这个AR导航小功能,真的非常便利。」一位香港朋友看到谷歌推出AR室内导航服务时,非常兴奋。
对于他这样的路盲来说,进入城市综合体消遣不啻于一场挑战。他曾因找车而迷失在武汉某大型城市综合体的地下车库(共三层);也曾因上海某商场指示不明找不到附近洗手间,抱怨不已。
这一次,「悲剧」不会再在成都国际金融中心「上演」。从地下停车场到商场内恣意楼层,只需翻开「ARgo增强实景导航」,用手机扫描周围环境,便可经过AI视觉瞬间辨认定位。
商汤科技对成都IFS多达46万平方米的区域进行了大尺度三维地图重建,结合实时定位和地图构建(SLAM)等技术,定位成功率高达99%,定位精度达「厘米」等级,单次时长达「毫秒」等级,且不会呈现偏移、闪耀等状况。
如果按照传统定制化服务来做,成本会非常高,甲方很可能因为价格望而却步,只有降低成本、提升部署效率,甲方才会买单,否则,他们只会优先考虑头部需求。
这一切背后最大功臣,正是商汤前瞻打造的人工智能基础设施——商汤 SenseCore(「AI大装置」)。
一 56亿的超级「怪兽」在上海临港新片区,矗立着商汤智算中心(Artificial Intelligence Data Center,AIDC)。这座宛若芯片的建筑占地面积约5.8万平方米,总投资约56亿元,仅用168天就顺利完成结顶,预计于2021年底投入试运营。
商汤科技人工智能计算中心效果图
与传统互联网数据中心(IDC)不同,这个超算中心要满足人工智能时代高交互高通量的需求。项目全部建成后AI计算峰值速度将达到3740 Petaflops(1 petaflop等于每秒1千万亿次浮点运算)。
算力可以支持同时接入850万路视频,同时满足四个超2000万级人口的超大规模城市使用;1天内可处理时长相当于23600年的视频,相当于从旧石器时代晚期不间断录制到今天的长度。
强大算力对于做算法来说就是一灶猛火,至于饭菜烧的怎么样,一定程度上取决于火候的控制。目前,人工智能在技术上已经达到非常高的水平,一个重要瓶颈正是算力跟不上产业发展所需。
不过,这座 AIDC 仅是商汤「AI大装置」的一部分,而非全部。和普通编程不同,算法研发是一个系统工程,需要能够协同优化数据、算法、算力的平台级产品。「大装置」全貌也因此包含三层。
算力层,主要以商汤在建的智算中心(AIDC)为基础,兼容AI芯片和AI传感器的强大能力。
平台层,除了数据平台,还整合了商汤原创的深度学习训练框架、推理部署引擎及模型生产平台,打通了从数据存储标注、模型训练部署、业务系统上线的全链路、批量化过程。
算法层,包含各种算法工具箱,不仅有城市交通、园区等高频应用场景算法,还有火灾、垃圾检测等长尾低频的算法。
SenseCore还包含一个工业级算法模型生产平台,可将训练出来的大模型应用于各个不同的行业和场景。
「AI大装置」可以把整个人工智能算法的生产过程变成流水线,可以按照工业化的流程来批量生产算法。商汤利用这个体系已经生产超过17000个模型,在各个领域都有应用。
不过,「AI大装置」出炉绝非一蹴而就。商汤从2016年开始就做了很多探索,尝试做重做深,碰硬件碰底层。
例如,成立初期,商汤就开始搭建底层算法平台。商汤认为,自身底层算法平台的完善保证其在进入任何一个新的行业时,可以将投入产出比降到最低,用最低的成本达到最好的效果。
当时,商汤甚至在总部办公大楼内,牺牲办公空间搭建原型机的核心机房,总投资近7亿元,进行项目预研。
「AI大装置」之于AI产业,犹如福特流水线之于工业。这条「AI流水线」可以实现不同场景的算法模型的底层抽象,以模块化平台套件打造通用型服务平台。
特别是,针对AI落地中更长尾的客户和场景,能够在组合不同算法套件的基础上完成新场景的定制,以低边际成本实现对新场景的规模化覆盖。
二 驯服长尾,SenseCore 的底层逻辑在商汤看来,这是面向未来必须迈出的一步。任何一家科技企业,不论做什么,最终体现的还是一个商业化能力。
目前视觉AI市场公司的主要业务大致可以分为三大类:硬件、定制服务以及软件业务。AI软件业务毛利最高,但这类业务占比往往最小。虽然复制性不强,服务成本居高不下,但是,为政府、央企以及其他大型企业完成的定制化服务业务占比最大。
许多自然系统的数据通常凌乱、长尾、不可预测甚至高度熵,由此引发的工作量被证明是让AI业务难以经济起来的主要原因。
例如,在工厂场景下检测零部件、在医疗图像中检测病理特征,本质上这些都是检测,但同样的算法在不同场景落地,会演化出非常不同的版本,会给技术积累产生很大的挑战。
要获得准确结果需要大量数据、实验和参数,而任务和场景稍有变化,就需要重新收集、标注数据,训练模型。
特别是,2020年政府提出新基建战略,新基建推起新一波AI业务浪潮。商汤在多个城市落地的智慧城市治理平台,与各地博物馆合作推出的智慧游览,与医院推出的智慧诊疗等项目均属于新基建项目。
当业务进入新基建业务语境时,城市长尾数据分布下的目标检测性能问题更给传统单一任务、通量、参数规模更低的「基础设施」「力不从心」。
以前算法性能的提升靠人工标注,现在几十亿甚至上百亿的量级的数据量,如何还能靠人工标注?
识别打伞的人、人在车后搬箱子、树倒在路中央等零碎、极端的长尾场景,足以难倒无人车;如何管理共享单车违停,垃圾乱投放,也是需要考虑的细节问题。
在城市管理的过程中,需要人工智能对各种不同组合进行学习,并建立反应策略。商汤CEO徐立曾解释说,每个人平均每天接触600个物体,仅考虑3种物体的组合,3500多万种组合,不同的场景组合可能理解识别成完全不同的结果。
如何高效且价格合理地解决这些大量细节问题,被商汤视为人工智能深入行业最重要的一点,而这又需要新一轮的突破和创新。
本质上,长尾犹如一把衡量问题复杂性的尺子,暗示我们要实现AI生产自动化。许多领先的机器学习组织也会运行(甚至设计)自己的机器学习集群。
在商汤看来,这个时候,整个行业需要通用性更强的模型,用一个模型支撑更多的任务。模型的通用性越强,需要的数据、算力往往也越多,这就是商汤建设 AI 大装置的底层逻辑。
「解决特定行业中的多场景长尾算法需求,需要用足够多的数据、足够大的算力,去训练一个足够大的通用模型,然后在通用模型下再去做小的场景模型,成本就会降低。」商汤科技联合创始人杨帆曾说。
纵观近些年AI研究「风向」,呈现出从「大炼模型」迈向「炼大模型」的趋势。
通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用。这些模型的泛化能力强,可用于多种不同、内在原理迥异的任务。
例如,文本生成模型 GPT-3,有着天文数字级别的1,750亿参数量,数据集总量是之前发布的GPT-2的116倍,是迄今为止最大的训练模型。GPT-3 主打文本生成,泛化能力强,可以用于多种任务。除了写作画图、敲代码、玩游戏等,还被网友们玩出了50多种新用法。
更加值得注意的是,这些史无前例般巨大的训练参数量,比如1.75万亿参数这个级别,即使采用最新的专门深度学习计算硬件和分布式计算方法,也非常艰难,对基础设施提出了更严苛的要求。比如,硬件芯片、还有超级计算机的计算力量。
AlphaFold2 在短短几个小时内就确定了蛋白质的三维结构,为了训练好这个算法,Alphafold采用了具有17万个蛋白质结构的数据库,使用约128个 TPUv3 内核(相当于 100-200 个 GPU)运行了数周。
商汤于上海临港建设的新型人工智能计算中心是目前亚洲最大的人工智能算力中心,作为参照, GPT-3完整训练一次需要3.14E23次浮点运算,而商汤临港AIDC的算力仅在一天内即可完成。
三 潜力初绽如今,这个 AI 大装置已经开始发挥它的作用。
借助大装置,商汤已经在超大模型技术研究方面取得一定成绩。例如在计算机视觉的卷积神经网络(CNN)领域,通常模型参数都在 1 亿以下,但商汤的深度学习训练框架 SenseParrots 能支持 50 亿参数超大视觉模型的训练。AIDC 完全投入使用后,计划支持的超大视觉模型训练参数可达更高的数量级。
6月,成都国际金融中心(成都IFS)推出了全国首个全场景城市综合体AR导航。不仅首次实现从地下停车场到商场内所有品牌门店、服务设施以及配套写字楼、酒店、服务式公寓的全程AR导航导览,也为品牌租户提供包括AR礼券、新品推荐、主题活动推广等丰富的营销功能,还为网红地标大熊猫户外艺术装置 I AM HERE设计了专属打卡路线。
无论是通用性还是可拓展性,商汤的解决方案都具备强大延展能力,可在短时间内快速部署。其中,数据平台有助于降低数据的生产成本,而生产平台+训练框架+部署的一体化能力,可以实现模型的快速选型、优化和封装。借助AIDC算力,可以极大提升服务效率。
据介绍,平台层同时融合了商汤原创打造的算法训练框架SenseParrots,能高效利用GPU集群算力,训练单个大模型时可以在千卡上取得超过90%的加速效率,达到单卡900倍的效果,远高于开源方案。
商汤联合创始人林达华曾透露说,「我们几乎所有的研究工作都是在这个大装置的基础上进行的。」「它为做算法研究的同学提供了充足的算力,使他们能够快速地进行实验试错。」此外,大装置中所积累的实用工具也缩短了创新的验证周期。
除了「个人生活」,在城市治理方面,AI大装置也正推动治理由人力密集型转向人机交互。
2020年,上海长宁区和商汤科技试点「AI+一网统管」。通过AI场景分割等技术将区域内1000个摄像头转化成为智能感知神经元,对中心城区最集中的垃圾暴露、单车乱停放等事件实现秒级发现,推送给网格员的政务微信进行立案。
处置以后,在规定时间内,摄像头对发生地点再次检测,若无问题即可上报平台完成结案,完成了整个事件处置流程的智能化。
系统运行以来,网格用户数达到100余人,结案率达到70%,超过一半的事件在4小时内处置完成,最快可实现20分钟完成从识别到处置。
商汤还与恒大物业、蓝光嘉宝合作,推动社区「从0到1」智慧化升级,解决物业管理降本增效的难题。
例如,针对近年来居民更为关注的电瓶车进电梯、高空抛物等不文明行为,恒大物业集团、恒大高科技集团通过商汤提供的人工智能技术实现了有效管理。
商汤还与瑞士迅达电梯签署战略合作,打造自动扶梯安全智能响应系统,提供覆盖自动扶梯入口、扶梯区域和扶梯出口的全场景安全管理辅助。
例如,在自动扶梯区域,发现有乘客摔倒时系统可及时告警以便停梯,或对逆行等不安全行为进行实时提示。如果系统检测到扶梯区域内无乘客,还可通知工作人员进行远程停梯,减少运营成本。
四 走向开放高通公司业务拓展全球副总裁沈劲曾说,像商汤科技这样的巨头,它们将会成为并且正在成为一个人工智能平台级的公司,它将是「发电厂」,中小创业公司「用电」就好了,不需要自己发电。
麻省理工学院(MIT)计算机科学和人工智能实验室(Computer Science and Artificial Intelligence Lab)的研究员尼尔·汤普森(Neil Thompson)和同事分析了 1,058 篇 AI 论文,发现机器学习的计算需求远远超过硬件改进或模型训练效率。在这条道路上,系统有朝一日将花费数亿甚至数十亿美元来训练——并且还有其他成本。
「使用更多 GPU 的问题在于,每次 GPU 数量增加一倍,成本就会增加一倍。」汤普森说。
在从事高端深度学习工作的大学中,「计算机能力较弱的大学所占比例已经越来越小」。「仍然有相当多的人可以玩这个游戏,但是随着计算负担的增加,玩家的数量越来越少。」
因此,从整个社会的角度来说,AI 基础设施将逐渐从一个企业内部的平台,发展为逐渐提供开放服务,并最终演变成一个面向整个生态、整个社区的具有公共性质设施。
这也正是商汤走向开放的底层驱动力。要想让AI赋能产业,不能只靠AI公司一己之力,而是应该开放整个产业生态,让更多人参与到AI改造传统行业的课题中去。
商汤不仅开源算法,也推出了开源生态,OpenMMLab开源算法体系已在GitHub上获得37,000+颗星。以超算中心的庞大算力为基础,商汤未来可以有能力为客户及合作伙伴输出更多的底层AI核心能力。
包括芯片、AI 超算平台、深度学习平台等基础层,在这方面,中国还有很长的路要走。未来,商汤也不会专注于某一个场景中解决问题,一定专注底层的原创能力。这也是商汤面向未来的长线核心竞争力,而建立这种长线竞争力的时间周期,则构成壁垒和护城河。
始于几十年前的人工智能创新,终将超越这个时代。无论是AIDC还是开源生态,都只是商汤未来星辰大海的一个开始。