收藏
加入书签

添加成功

收藏成功

基于多智能体强化学习的医养结合服务资源调度与协同优化策略研究

柳寳铉刘宇晗（通讯作者）

京畿大学一般大学院，韩国水原市，16312

摘要：随着人口老龄化进程加快与健康服务需求的多元化，医养结合服务体系在资源调度与多主体协同方面面临严峻挑战。本文引入多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）模型，构建以"系统协同效能"为核心的资源动态调度框架，旨在解决服务资源分散、响应滞后与跨部门协同不足等问题。研究从智能体交互机制、状态空间构建、奖励函数设计等维度出发，系统分析 MARL 在医养资源调度中的适用性与优化路径。研究表明，通过政府引导、机构协同、技术支撑的三层联动机制，可实现医疗、养老、社区等多元主体的资源整合与行为协同。本文进一步从算法嵌入、数据融合、制度激励和治理重构四个方面提出优化策略，为构建高效、响应迅速、可持续的医养结合服务系统提供理论依据与方法支持。研究结果对推动医养结合服务的智能化转型具有重要的理论价值与实践意义。

关键词：多智能体强化学习；医养结合；资源调度；协同优化；智能决策；人工智能

当前我国人口老龄化程度持续加深，老年群体健康服务需求呈现高频、多样与动态变化特征。数据显示，截至2023 年底，全国 60 岁及以上人口已达 2.97 亿，占总人口 21.1% ，其中失能、半失能老年人超过4400 万[1]。面对这一庞大需求，传统医养服务资源调度模式刚性突出，难以实现跨机构、跨层级的快速响应与优化配置。在突发公共卫生事件或季节性需求高峰期间，医疗与养老资源间“忙闲不均”“转介不畅”等问题凸显，严重影响服务连续性与质量[2]。

尽管国家层面通过《“十四五”国家老龄事业发展和养老服务体系规划》等政策推动医养康养结合，实践层面仍存在制度割裂、信息壁垒与激励偏差，制约资源系统化协同[3]。具体表现为：医疗机构与养老机构信息不对称导致资源利用率低下，“压床”与空置并存；服务转介机制不健全，影响患者急性期治疗后的连续康复；社区缺乏有效整合平台，难以统筹医疗、护理、康复资源。

在此背景下，借助智能技术提升资源动态调度与多主体协作效率至关重要。多智能体强化学习作为分布式人工智能的重要分支，通过模拟多元决策主体交互与学习，为复杂系统资源调度与行为协同提供新思路[4]。本研究基于 MARL 框架，重点解决三个问题：多主体利益不一致情境下的协同机制设计；系统真实状态的状态空间与奖励函数构建；从“被动响应”到“主动适配”的调度模式转型。通过上述探讨，为医养结合服务的精细化、智能化治理提供路径参考。

一、医养结合服务资源调度的现状与挑战

（1）资源调度体系的碎片化运作

目前，医养结合服务资源在调度层面存在明显的"系统孤岛"现象。医疗机构、养老机构、社区服务中心等主体之间缺乏统一的信息平台与调度规则，资源分配多依赖人工沟通与经验判断，导致响应速度慢、调度效率低[5]。特别是在跨机构转诊、急护资源调配等需快速响应的场景中，信息传递延迟与权责不清进一步加剧了资源错配。

（2）动态需求与刚性供给失衡

老年人对医养服务的需求具有高度不确定性与异质性，既包括日常慢病管理、康复护理等常规服务，也涵盖应急救治、心理干预等突发需求。然而，现有资源供给模式仍以静态规划为主，缺乏基于实时需求的弹性调度能力。调研显示，多数地区在床位周转、医护派单等方面仍采用固定排班制，难以应对季节性流感、突发公共卫生事件等带来的服务压力波动[7]。

（3）多主体协同机制缺失

医养结合服务涉及卫健、民政、医保、社区等多部门职责，各类主体在目标函数、绩效考评与资源约束上存在差异，缺乏有效的协同激励机制。例如，医院以提高床位周转率为目标，养老机构则关注入住率与成本控制，目标冲突导致双向转诊难以落实[8]。此外，现行制度下缺乏对协同行为的量化评估与激励，进一步削弱了多主体参与资源协同的内在动力。

（4）数据基础与调度能力不匹配

尽管物联网、大数据等技术逐步应用于医养领域，但数据采集的标准化程度低、平台之间互操作性差，导致调度系统难以获取高质量、全维度的实时数据。在没有数据支撑的情况下，动态调度更多依赖于定性经验而非定量决策，严重制约了调度精度与系统智能化水平[9]。能够实现基本信息的数字化管理、进行数据实时交互的机构数量过少。数据孤岛问题直接影响了区域级资源调度平台的建设效果，使得智慧医养停留在概念层面难以落地。

二、多智能体强化学习模型的适用性分析

多智能体强化学习通过模拟多个智能体（Agent）在共享环境中的交互与学习，逐步优化各自策略以达成个体或整体目标，特别适用于医养结合服务这类多决策主体、环境不确定、目标复杂的系统[10]。其适用性主要体现在以下方面：

首先，MARL 能够有效刻画多元主体的自主决策与交互行为。在医养服务系统中，医院、养老院、社区卫生中心等可被建模为独立智能体，各智能体基于自身状态（如资源空闲程度、服务队列长度等）进行分布式决策。MARL 框架能模拟部分可观测环境中的多主体交互过程，真实反映系统内资源竞争与合作关系[11]。例如，在急诊转诊过程中，医院需根据实时床位与医护资源决定是否接诊，养老机构则评估自身服务能力以决定是否接收转诊，此类分布式决策恰是MARL 的优势所在

其次，MARL 具备处理序贯决策与长期收益权衡的能力。资源调度属于多阶段决策过程，当前决策将影响后续系统状态与服务效果。MARL 通过优化长期累积奖励，引导智能体在考虑即时收益的同时，更关注调度行为对系统稳定性的长远影响[12]。例如，医院智能体可为避免后期资源挤兑而预留应急床位，此类前瞻性策略是传统优化方法难以实现的。研究表明，在考虑长期收益的MARL 模型指导下，医养系统资源利用率可提升 15% 以上，并显著降低紧急服务拒绝率[13]。

第三，MARL 支持在不确定环境中通过试错自主学习优化策略。医养服务需求具有随机性与突发性，传统优化模型依赖强假设，而MARL 通过与环境的持续交互动态更新策略，表现出更强适应性。基于值函数逼近与策略梯度的深度MARL 方法能有效处理高维状态空间，适用于大规模复杂医养系统的调度优化[14]。

最后，MARL 为多主体协同提供基于算法的激励机制。通过设计合理的系统级奖励函数（如转诊成功率、资源利用率方差最小化等），可引导智能体在追求自身目标的同时主动协同，提升系统整体效能[15]。例如，对成功完成跨机构转诊的智能体给予额外奖励，能有效促进资源共享。仿真实验表明，在适当设计的奖励机制下，MARL 模型可使系统服务满意度提升 22% ，同时将资源闲置率控制在 10% 以下[16]。

三、基于 MARL 的资源调度模型关键设计

（1）智能体划分与角色定义

本研究将医养服务系统中的核心决策主体抽象为四类智能体：区域调度中心智能体（协调层）、医疗机构智能体（执行层）、养老机构智能体（执行层）和社区服务智能体（执行层）。各智能体具有差异化的观测范围与决策权限：区域调度中心负责全局监控与规则制定；医疗机构智能体承担患者接收、转诊建议及资源调配等任务；养老机构智能体聚焦床位管理与照护计划制定；社区服务智能体则负责上门服务派单与应急响应。该多层次结构有效模拟了现实中医养服务系统的层级化决策分工。

（2）状态空间设计

状态空间涵盖资源、需求、环境三类信息，具体包括：各机构实时资源状态（床位、人力、设备可用数）、待服务对象队列（数量、紧急程度、服务类型）、环境参数（时间、季节、突发公共事件等级）等。通过多维状态表征，为智能体决策提供全面信息基础。在具体实现上，状态空间可采用向量形式表示： S= {S_resource， S_demand， S_environment}，其中 S_resource 包含各类资源的数量、质量、位置等信息；S_demand 涵盖服务需求的类型、紧急程度、时空分布等特征；S_environment 则包括时间、天气、特殊事件等外部环境因素。这种细致的状态表征有助于智能体做出更加精准的调度决策。

（3）动作空间设计

动作空间定义了智能体可执行的调度操作，包括“接受转诊”、“预留资源”、“请求支援”、“调整排班”等基本动作。针对不同智能体类型，动作设计各有侧重：医疗机构智能体主要涉及患者接收决策与专家资源调配；养老机构智能体专注于床位分配与照护方案调整；社区服务智能体则负责服务派单与应急响应启动。动作空间设计遵循可操作性与系统稳定性原则，确保学习策略具备实际应用价值。

（4）奖励函数设计

奖励函数是驱动智能体行为优化的核心，需兼顾个体效率与系统协同。个体奖励反映智能体自身目标完成度，如资源利用率、服务满意度；协同奖励则用于激励合作行为，如成功转诊次数、资源均衡度；系统奖励关联整体目标，如平均响应时间、服务覆盖率。通过加权组合多类奖励，引导智能体形成协同偏好。具体奖励函数可设计为： αR_individual + βR_cooperation + γR_system，其中α、β、γ为权重系数，根据不同场景调整。例如，在疫情等紧急情况下，可提高系统奖励的权重，引导智能体优先保障重点人群的服务需求。

（5）算法选型与训练机制

可采用集中式训练分布式执行（CTDE）框架，选用 MADDPG、QMIX 等先进算法。在训练阶段利用全局信息优化策略，执行阶段各智能体基于局部观测自主决策。训练过程分三个阶段推进：基于历史数据进行离线预训练，掌握基本调度策略；通过模拟环境进行在线学习，持续优化决策能力；在真实场景中开展渐进式试点，逐步扩展应用范围。该训练机制既确保算法稳定性，又保持对环境动态变化的适应性。

四、医养结合服务资源调度系统的优化策略

（1）构建基于MARL 的智能调度平台

推进医养调度系统数字化与智能化转型，搭建集成数据采集、模型训练与决策支持于一体的智能调度平台。平台需支持多源数据接入、实时状态感知与动态策略调整，形成“监测-决策-执行-反馈”的闭环管理。具体实施路径包括：建立统一数据标准与接口规范，实现医疗机构、养老机构与社区服务中心的系统互联；开发基于MARL 的智能调度引擎，支持资源动态分配与多主体协同决策；构建可视化监控界面，提供系统运行状态展示与决策支持。

（2）建立跨部门协同与利益平衡机制

通过制度设计明确各主体权责利关系，建立基于调度效果的绩效考核与分配机制。将转诊成功率、资源协同效率等指标纳入机构考评体系，并运用财政补贴、医保支付等工具激励协同行为。可建立“资源池+绩效奖励”机制：各机构将部分资源纳入共享池，依据贡献度与使用效率获得奖励；设立协同服务专项基金，对表现突出机构给予额外补助。此机制在保障基础资源共享的同时，激励优质服务供给，实现效率与公平的平衡。

（3）强化数据基础与算法透明度

统一医养服务数据标准，推动医疗机构、养老机构与社区健康档案的数据互联互通。增强算法可解释性，建立人工审核与干预机制，确保调度决策的公平性、可信度与可追溯性。具体措施包括：制定《医养结合数据共享管理办法》，明确数据采集、存储与使用标准；开发算法解释工具，辅助管理人员理解MARL 决策逻辑；建立重大决策人工复核制度，防范因算法失误引发的系统性风险。

（4）推动政策与技术融合创新

将MARL 调度系统纳入区域卫生规划与智慧养老建设重点任务，完善标准规范与安全保障体系。加强多学科合作，培养兼具医养业务与人工智能技术的复合型人才。政策层面，将智能调度系统建设纳入医养结合示范项目评价体系，提供资金与政策支持；技术层面，建立“政产学研用”协同创新机制，加速关键技术攻关与成果转化；人才层面，在高校设立交叉学科专业，加强在职人员培训，构建多层次人才体系。

五、结论

本文系统研究了多智能体强化学习在医养结合资源调度中的应用价值与实施路径。研究表明，MARL 通过模拟多主体交互与策略学习，可显著提升资源调度的动态适应性与系统协同效能。本研究的主要贡献包括：构建了适配医养场景的 MARL 框架，明确了智能体划分与状态空间等核心要素；设计了基于奖励函数的协同激励机制，为解决多主体利益冲突提供了新思路；提出了涵盖平台建设与制度配套的系统化实施方案。未来研究可从四个方向深入探索：开发小样本条件下的MARL 训练方法以降低数据依赖；研究轻量化部署方案提升算法在资源受限环境中的适用性；完善人机协同机制实现智能决策与专家经验的优势互补；开展多区域、多场景的实证研究验证模型普适性。这些研究将推动医养服务体系向智能化、高效化方向演进，为应对人口老龄化提供关键技术支撑。

参考文献：

[1] 国家统计局.中华人民共和国2023 年国民经济和社会发展统计公报[J].中国统计，2024（3）：4-21.

[2] 蒲新微，沙雨邦.智慧养老服务：建构逻辑、实践困境与突破路径[J].东北师大学报（哲学社会科学版），2025（4）：69-78.

[3] 国务院.国务院关于印发"十四五"国家老龄事业发展和养老服务体系规划的通知[J].自然资源通讯，2022（4）：13-27.

[4] 陈卓然，刘泽阳，万里鹏，等.多智能体强化学习理论及其应用综述[J].模式识别与人工智能，2024，37（10）：851-872.

[5] 朱松梅，郝晓宁.供需均衡框架下医养结合服务的现实困境与治理策略[J].卫生经济研究，2025，42（7）：6-9，14.

[6] 孔杨，张楠，徐海燕.我国医养结合养老服务供需失衡的系统动力学分析[J].山东社会科学，2023（4）：135-144.

[7] 谢来位.低收入老年人基本养老服务有效供给的政策优化研究[J].重庆社会科学，2025（2）：54-71.

[8] 刘根嘉，陈思衡，张文军.多智能体协作感知的现状与展望[J].中兴通讯技术，2025，31（4）：34-40.

[9] 曹纳纳，王欣，孟亚.中国医养结合模式及老年人综合照护的实施现状、机遇与挑战[J].中国医学伦理学，2025，38（3）：289-295.

[10] 罗彪，胡天萌，周育豪，等. 多智能体强化学习控制与决策研究综述[J]. 自动化学报，2025，51（3）：510-539.

[11] 谢宇.数字技术在医疗设备管理中的应用[J].数字技术与应用，2022，40（10）：100-102.

[12] 王凌霄.基于值分解优化的多智能体深度强化学习方法研究[D].中国科学院大学，2021.

[13] 刘全，翟建伟，章宗长，等.深度强化学习综述[J].计算机学报，2018，41（1）：1-27.

[14] 封满楼.AI 如何赋能康养产业[J].商周刊，2025（15）：36-37.

[15] 沈思彤，王耀吾，谢在鹏，等. 基于角色学习的多智能体强化学习方法[J]. 计算机工程，2025，51（6）：102-115.

[16] 徐晓曦，陈虹，梁潇 . 特大城市医康养结合空间组织模式与规划策略 [J]. 规划师，2024，40（10）：135-141.

*本文暂不支持打印功能