【春华初绽】Edge Big Bang 模型定制创新成果亮相国际顶会 ICDCS 2025

ACME:如何让大模型落地终端?一套分布式定制新范式

image
在智能终端日益普及的今天,如何让大模型真正“跑”进边缘设备,成为学术界和工业界共同关注的焦点问题。在这一关键技术转折点上,天津大学Edge Big Bang Group持续发力,探索大模型在分布式环境下的高效部署路径。近日,课题组在国际分布式计算领域顶级会议IEEE ICDCS 2025上发表最新成果,提出了名为ACME的模型定制方法。该方法通过构建“双向单循环”系统架构,突破传统集中式部署瓶颈,在性能、能耗与模型个性化之间实现精巧平衡,展现出将Transformer大模型与异构设备深度融合的全新可能。
IEEE International Conference on Distributed Computing Systems(ICDCS)是分布式计算领域最重要的国际学术会议之一,聚焦于系统、算法与应用的前沿研究,CCF-B,长期被视为该领域的顶级会议。实验室的硕士生戴子明的论文《ACME: Adaptive Customization of Large Models via Distributed Systems》被 IEEE ICDCS 2025录用。

论文正文/正文介绍

近年来,Transformer架构驱动的大模型(如ViT、BERT、LLaMA)在图像与语言任务中表现突出,但云端部署模式正面临隐私风险高、响应延迟大的现实挑战,特别是在对实时性要求极高的边缘场景中,这种部署方式已难以满足系统需求。随着边缘设备计算能力的持续提升,将大模型本地部署、实现隐私保护与快速响应的协同优化成为研究新趋势。然而,直接将统一模型轻量化后投放至异构设备,常因性能失衡而效果不佳。我们在CIFAR-100数据集上开展实验发现,一方面,模型增大并不必然带来准确率提升,反而造成能耗飙升;另一方面,同规模模型因结构差异,其在不同设备上的精度差异可达4.9%。这表明,结构是否匹配设备能力与数据特征,比单纯追求模型压缩更关键,也促使我们重新思考模型部署范式:未来的大模型需要“因地制宜”,真正做到为每台设备量身定制。
image
图1: 模型体量、模型架构与准确性的关系
尽管如此,真正实现端侧个性化模型定制依然面临三大难题。首先,传统的集中式设计方式效率低下,尤其在设备数量成百上千时,云端进行逐一模型调整不仅通信负担沉重,而且运维开销巨大。其次,设备的计算、存储与能耗约束多维异构,单一设计逻辑难以覆盖全部条件。最后,本地数据的分布差异会极大影响模型学习效果,若不加以建模与调适,即使结构合理,也可能因语义偏移而失效。
image
图2: 大模型定制面临的三大挑战
为此,我们提出了一个全新的大模型定制框架——Adaptive Customization Approach of Transformer-based Large Models (ACME),其核心在于通过分布式系统协同完成模型从“骨干”到“头部”的渐进式定制,兼顾设备约束与数据特征,真正实现面向设备的个性化模型架构优化。

文章整体方法介绍

在方法设计上,ACME构建了一个“双向单循环”的分布式系统架构(见图3),打破了传统云端集中定制的模式,通过云、边、端三层的协同交互,实现模型从“共性”到“个性”的逐步适配。具体而言,云端根据设备集群属性生成主干网络(Backbone),边缘服务器进一步构建粗粒度的头部结构(Header),终端设备则结合本地数据完成精细化优化。这种分层解耦的策略不仅减少了数据上传成本,也兼顾了隐私保护与系统性能。
image
图3: ACME的双向单循环架构
在模型结构上,ACME采用“骨干+头部”的双阶段定制策略。第一阶段通过评估注意力头与神经元的重要性,对Backbone结构进行宽度与深度的裁剪,再基于帕累托前沿搜索在精度、能耗与模型大小之间寻优匹配。第二阶段则面向Header展开粗细结合的定制流程:边缘端借助神经结构搜索(NAS)构建Block级搜索空间并生成粗粒度模型结构,终端设备再基于本地梯度评估形成“重要性向量”,通过Wasserstein距离引导的聚合机制完成个性化裁剪(见图4),最终实现结构适配与数据对齐的统一优化。
image
图4: Header模型结构细化流程图

实验验证部分

研究团队基于ViT模型和CIFAR-100和Stanford Cars数据集,系统评估了ACME在边缘部署中的性能表现。结果显示,在成本效率方面,ACME相较传统中心化系统,搜索空间缩小至约1%,数据上传量降至仅6%,显著降低了系统资源消耗。在模型效果方面,ACME在25MB存储限制下的准确率比多个主流轻量ViT模型平均高出近10%,即便与结构相近的DeViT相比也提升约5%,并实现了更小的参数量,展现出优异的结构性优势(见图5)。
image
图5: CIFAR-100上的准确度对比图
进一步分析表明,ACME在模型与设备属性的适配上具备明显优势(见图6),在模型大小、能耗与延迟等多指标下的综合权衡性能(Trade-off Score)提升超过28.9%。此外,针对设备间的数据异构问题,ACME利用Wasserstein距离刻画分布相似性,指导个性化结构聚合,即使在非IID数据环境中也能保持准确率优势,在数据复杂度提升的场景下仍优于“单机训练”与“平均聚合”策略(见图7),凸显其出色的泛化能力与鲁棒性。
image
图6: 不同匹配方式下的模型性能对比
image
图7: 不同数据分布下的模型准确度提升h6>
综上所述,ACME以其系统级设计、结构级拆分和算法级创新,为大模型在分布式环境中的定制部署提供了一种兼顾效率与效果的解决方案。
Ziming Dai, Chao Qiu, Fei Gao, Yunfeng Zhao, and Xiaofei Wang. “ACME: Adaptive Customization of Large Models via Distributed Systems.” In Proceedings of the 45th IEEE International Conference on Distributed Computing Systems (ICDCS), 2025. (CCF-B)
本项工作的顺利发表,离不开课题组老师们的前瞻指导与同学们的持续投入。从系统架构设计到算法落地实施,每一步都凝聚了团队对边缘智能前沿问题的深入思考与技术攻坚。我们也由衷感谢每一位在实验调试、模型验证与论文撰写中默默付出的成员,正是大家的协同努力,才让ACME得以最终呈现在国际舞台。未来,Edge Big Bang Group将继续聚焦“智能算力边界”的关键挑战,在大模型轻量化、分布式推理与个性化定制等方向持续探索。欢迎大家关注我们的更多进展,也期待与各界有志之士在科研的道路上携手前行,共同拓展边缘智能的无限可能!
阅读原文