和800+贡献者、60+组织一起吐槽边缘AI方案落地问题

1 边缘AI技术趋势显现

在云上执行机器学习是传统而广泛为人所知的方法,基于云侧大规模算力,大部分大型云平台提供商均已提供机器学习服务。然而,机器学习所需的数据却往往并非直接从云平台中产生,而是来自传感器、手机、网关等边缘设备。

随着边缘设备的广泛使用和性能提升,将机器学习相关的部分任务迁移到边缘,也即边缘AI技术,已成为必然趋势,甚至能够同时结合云侧算力和边侧数据来完成机器学习任务。2018年,VMware发布了云环境扩展到边缘的框架。微软除Azure云外,也在物联网上投资50亿美元,因为“物联网最终正在发展成为新的智能边缘”。Garner预测,到2022年,50%的企业生成数据将在传统集中式数据中心或云之外创建和处理,高于2018年的不到10%,比如工厂内、飞机或石油钻井平台上、零售店或医疗器械中。

2 边缘AI技术挑战

机器学习服务将边缘产生的数据转换为知识的过程中,无疑首先需要在边缘快速响应并处理本地产生的数据。在对接大量边缘设备的边缘云时代,为运行机器学习服务,相关企业在传统云上机器学习基础上仍需面对更多权衡:

1、数据从边侧产生,而云端需从边侧采集数据以训练和不断完善机器学习模型。

2、大量延迟和成本等问题使得将大量边侧数据移动到云端数据中心变得不切实际。假设即使有100 Mbps的专网连接,将10TB的数据运送到云端也需要10天。面对大量边缘连接设备每天生成数百兆字节甚至TB数据,带来的延迟对客户和服务提供方来说往往是难以承受的;

3、大量设备的数据采样和传输仍会延迟甚至劣化企业基于新数据的知识获取。越来越多的计算机和传感器产生数百TB或者甚至PB的数据量,并且数据量正在迅速上升。正因为迁移所有数据通常是不切实际的,需要对数据进行“采样”(也称难例识别或未知任务发现)并传输到云端。“采样”过程存在时间和资源上的代价。“采样”到传输上云的过程,都将延迟完整数据集(包括最新数据和历史数据)的分析,企业最终被迫等待最新数据集传输到云才能进行处理。“采样”后的数据集也不一定能完全代表完整数据集,这可能带来精度损失。

4、部分项目的数据隐私和实时性需求导致数据迁移到集中式数据中心的方案不可选。

随着边缘设备的计算能力日益增强,将机器学习相关的计算任务嵌入到边缘,而不是在云上执行,成为一种必然趋势。当前主要有下述几种方法:

1、云端训练,边侧推理

云端训练并将模型传输到边侧,推理等工作可在接近数据所在位置执行。这是最简单的方法,因为它保留了云端机器学习开发的易用性和灵活性,但同时又能在靠近数据源的地方执行算法。因此,可以应对边侧的实时推理需求。仅当少量数据需要额外的处理资源时,需要传输到云,以弥补边侧设备资源的局限性,比如数据科学家需要训练新的机器学习模型或使用新的算法时,也主要借助云来解决,如集中式联邦学习。

这种模式实现简单、开发轻松,云平台上开发算法的框架与其它环境可灵活选用;同时,云端可提供深度学习所需的大量资源,如CPU/GPU、内存和硬盘。

但是缺点也很明显,将数据从一个地理区域移动到另一个地理区域,由于数据中心到设备的距离容易导致服务高度延时;云侧难以获得边侧所有数据。为避免数据全部上云,机器学习模型对训练数据需进行智能采样(也称难例识别或未知任务发现)。因此,云端机器学习模型的性能也取决于采样算法的性能,另外这也导致大数据加载缓慢;算法优化对于每个设备都是唯一的,甚至不同设备存在相互冲突的规则,很难在云端产生能同时服务于所有边缘设备的通用模型,尤其边侧设备往往还要求模型需要针对资源约束进行优化;设备由于容量限制,本地通常不保留历史数据,也很难与其它设备分享。同时由于数据孤岛问题,也无法轻松地从流经其他设备的数据中学习;

2、边侧训练,边侧推理

指的是基于边侧设备的数据,在对应边缘设备上进行训练和推理。这种方法通常利用智能边缘软件,比如嵌入式系统或操作系统的友好GUI环境作为开发环境。要在边缘完全实现这一目标,开发人员通常依靠低代码平台、数字孪生或虚拟模型,定期更新生成的数据。

这种模式的优点是可以基于完整的本地边侧数据集开发高精度模型;可以解决隐私/合规性问题;由于边缘的低延时,可以进行近乎实时的决策处理。

但是,尽管当前智能边缘软件开发生态已开始发展,但数据科学家和工程师在边侧直接进行开发的边侧软件支持和选型灵活性有限。而相关服务成熟需要边缘计算的生态系统本身获得更多的关注、投资和支持。另外,完全边侧进行的机器学习难以支持长期知识持久化和跨边知识联合分析。换句话说,这种方法难以将历史和其它边侧设备的知识作为训练和持续更新的一部分。这主要是受限于边侧资源和跨边数据隐私合规等。这个缺点在新边侧节点刚刚建立,不具备大量样本时尤为显著,容易导致精度低下甚至模型无法收敛而训练失败。

3、边云协同的训练或推理

指的是训练或推理的机器学习任务是云端与边侧协同完成的。对当前业界来说,边云协同的训练或推理方法仍是一种不显然且较为令人陌生的方法,但能够更细粒度地同时权衡时延和建模精度。这种方法本质上是将机器学习训练或推理的过程分解为多个模块,使得各个模块的计算任务能够分别被调度到边侧或者云端执行。以一种基于联邦学习的边云协同训练方法为例,它将数据预处理、特征工程和小规模本地训练部署在边侧,获取的本地知识从边侧传输到云端,最终在云端部署并完成大规模的分布式训练。

这种模式的优点包括:无需直接将所有边侧的原始数据全部传输到云,也可避免将原始数据从其本地边侧存储库中传输到其它边侧系统中执行机器学习分析。这点尤其是因为数据隐私或合规等原因导致数据无法移动时特别关键;可基于所有边侧的完整数据集进行高精度建模,如联邦学习和迁移学习;可基于历史和更新数据,持续训练和改进边侧的机器学习模型,做到越学越聪明,比如在边侧自主补充数据实现“闭环”,如在线或终身学习等增量方法。智能边云协同平台等相关生态已经建立,能够作为分布式、联合分析的底座。此平台能力包含边云系统的数据、模型等文件的传输、存储和计算调度,逐步实现近乎实时的流处理以及边云协同的机器学习算法训练微调,乃至在跨边地理分布式数据库上直接处理而无需跨地域直接传输原始数据。

但是边云协同的训练或推理方法涉及AI系统各个方面,技术路径复杂,研发周期长。其机制与算法设计技术离完全成熟还有差距,仍有问题待学界探索。同时,边云协同的训练或推理方法的使用范围和“杀手”应用等仍有待挖掘和明晰。

在落地过程中,我们发现,在连接海量边缘节点的边缘云时代,随着AI服务与边缘用户的距离缩短,通用AI原本部分技术挑战在边缘场景下变得更加尖锐。这里总结了四项挑战:

1、资源受限:相对于便宜、按需获取的云端资源,边侧资源包括计算设备、供电设备、部署场地面积、AI开发环境等往往是有限或者异构的,边侧服务框架流程需要应对并兼容多种情况,建设与维护成本更高。

2、数据孤岛:边缘存在天然的地理分布性。AI算法在工业应用时,往往面临数据无法共享和数据隐私保护、甚至网络瓶颈等问题,导致数据集在地理上天然分割,AI算法无法高效、准确地共同使用各个边缘节点的数据。传统集中式AI模式在边缘场景下各项AI系统性能下降(包括收敛速度, 数据传输量, 模型准确度等)。

3、小样本:单个边缘通常仅有少量样本, 尤其在边侧服务启动初期普遍出现冷启动问题。同时,边侧大量非结构化样本的标注也比较困难,标注样本的数量较低。这导致传统大数据驱动的统计机器学习方法无法收敛或精度差。

4、数据异构:数据集内存在多种特征、模型或标注分布,直接导致边缘测试样本的统计分布与训练集差异过大(也称Non-IID或OOD),使得通用AI模型在不同边缘的不同情境性能显著下降。对于同个租户,业务繁多也往往导致不同输入输出的算法和数据复杂多样(也称长尾算法或长尾数据),此时边云协同AI服务框架流程需同时应对和兼容相应业务数据,并统一权衡实现资源高效调度。

以楼宇空调节能参数推荐场景为例:

1、 描述:冷机有多组参数可调,节能的关键是预测不同参数组合下的冷机能效比,推荐满足制冷条件下的最节能参数配置。

2、 边缘智能需求:

a) 新园区系统启用,需具备边侧冷启动能力实现快速交付;

b) 园区系统本地定制与自动闭环:边缘云服务在线采集数据,模型持续迭代;

c) 园区设备智能服务离线自治

3、 技术挑战:

a) 资源受限:园区边侧设备的数据存储与处理能力有限,在支撑多个系统服务同时机器学习服务容易卡顿,本地数据也只能保存数月。

b) 数据孤岛:同租户不同楼宇控制乃至电力系统不互通。

c) 小样本:新园区系统启用,需时间积累数据。冷机所有工况下所有参数组合全部运行采样不可行。

d) 数据异构:不同园区设备模型差异大,不存在单一通用模型。受工况、寿命等影响,模型随使用会逐渐变化。

从服务应用层面来讲,当前边缘AI具有如下特点:

AR、VR、互动直播、视频监控等基于人机交互的多媒体行业场景下以非结构化数据为主。非结构化数据是指难以转化为便于信息系统进行语义解析的数值或统一格式的数据,如图像、文本等,通常由人类直接处理。主要采用深度神经网络方法。四大挑战中最关键的部分在于由于未标注数据量大导致的标注样本少、复杂系统下不相称的边侧资源受限。

工业、能源、金融等基于传统电子信息系统的行业场景下以结构化数据为主。结构化数据是指便于信息系统进行语义解析的数值或统一格式的数据,如数据库表格等,可由信息系统直接处理。主要使用非深度神经网络的机器学习算法,其算法建模方式多样,与业务相关性高。四大挑战中最关键的部分在于边侧小样本、跨边数据孤岛,以及数据异构下的服务可靠性乃至可解释性等。

KubeEdge社区一直密切关注边缘AI相关挑战。KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会内部唯一孵化级边缘计算开源项目。KubeEdge在全球已拥有800+贡献者和60+贡献组织,在Github获得4.5k+Stars和1.3k+Forks。作为KubeEdge中唯一的AI特别兴趣小组(Special Interest Group),KubeEdge社区SIG AI致力于使能AI应用在边缘更好地运行,聚焦边缘AI技术讨论、API定义、参考架构、开源实现等。针对上述四大挑战,当前已开源边缘智能平台Sedna及其跨边云的协同推理、联邦学习、增量学习和终身学习特性。

3 启动落地挑战调研

当前学界业界各团队的方案落地与成果转化到产业的进程正在紧锣密鼓地进行。很多团队已经遇到各式各样的困难,比如数据集难以获取、通用方案无法满足特定业务、缺乏商业成功案例等。仅靠技术并不足够完成落地和产业转化。

现在,为了让更多边缘AI领域的朋友多快好省地完成技术研发落地和商业闭环,我们准备启动落地挑战调研,并结合行业关注的最新技术趋势进行社区内容优化,最终集结开源社区力量为边缘智能算法开发者、服务部署者、市场营销者三种角色提供资源和平台帮助。社区将聚集SIG AI中30+单位的各供应商和开发者,提供数据集开源、预处理与特性算法开源、以及AI工具等行业内迫切需要的资源,为大家带来一场开源饕餮盛宴。

作为信奉开源文化的社区,我们始终都强调“Best ideas win”,领域发展自然也不例外。为了交出一个更有竞争力和创意的提案,我们希望了解每位关注开源与边缘智能的朋友对边缘AI相关方案落地过程遇到困难,然后选取Best idea,对社区内容进行优化,以便为大家呈现一个体现开源开放精神的资源分享社区生态。