• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于共形风险控制的预算化任意时刻思维树推理算法

石凡
  
西部文化媒体号
2022年106期
Roche Genentech 100 DNA Way South San Francisco CA 94080

摘要:本文提出一种结合共形风险控制(Conformal Risk Control, CRC)的预算化任意时刻思维树推理算法(BATS),用于在有限算力预算下提升大型语言模型(LLM)的复杂推理效率与可靠性。BATS 在 Tree-of-Thoughts(ToT)框架内,将“风险—成本联合优化”作为核心目标:在保证错误率不超过阈值 α 的前提下最小化推理成本。算法通过 CRC 对候选解进行有限样本置信评估,当风险低于阈值时提前停止推理,实现任意时刻输出的可靠推理。同时,引入多保真搜索与自适应温度调度机制,在不同阶段平衡探索与利用。实验表明,BATS 在 GSM8K 与 HotpotQA 等任务中,在保持精度的同时平均节省约 30% 计算开销,并首次实现推理过程的统计置信可控,为高可靠推理与资源优化提供了新思路。

关键词:思维树推理;共形预测;风险控制;任意时刻算法;大型语言模型

一、引言

大型语言模型的推理能力可通过“思维链”方法(Chain-of-Thought,CoT)显著提升 [3]。然而,CoT 仅沿单一路径推理,缺乏全局探索。为此,研究者提出了 Tree-of-Thought(ToT)框架 [2],允许模型在树结构中生成并筛选多条思维路径。然而,ToT 仍存在两大不足:

(1) 缺乏对输出置信度的量化,难以在高风险任务中保证可靠性;

(2) 搜索成本高,难以自适应地控制预算。

为 解 决 此 问 题, 本 文 提 出 BATS(Budgeted Anytime Tree-of-Thoughts),将共形风险控制(CRC)融入 ToT 推理过程,使算法可在任意时刻输出满足置信约束的结果。其核心思想是:在推理过程中动态评估每个候选解的风险,当其低于阈值 ∝ 时提前终止。算法还引入动态温度调度与基于优先级的节点扩展机制,使有限预算集中于高潜力路径,从而在保证可靠性的前提下节省计算。

主要贡献如下:

(1) 提出风险—成本联合优化目标函数,明确权衡解的可靠性与预算约束;

(2) 设计基于共形风险控制的任意时刻停机准则,保证错误概率不超过设定阈值;

(3) 提出动态温度与优先扩展搜索策略,实现高性价比推理;

(4) 在多任务上验证了算法的可行性与稳健性。

二、方法

2.1 风险 – 成本联合优化

设 推 理 风 险 为 R , 计 算 代 价 为 C 。BATS 的 目 标 为:minπJ=R+λC. , 其中 λ 为风险与成本的权衡系数。当约束形式更直观时,可写为: , 即在错误率不超过阈值 ∝ 的条件下最小化计算成本。

2.2 算法流程

初始化:设总预算 B 与风险阈值 ∝ ,并设初始温度 τ0⨀

节 点 扩 展: 根 据 优 先 级 函 数 选 择 节 点: , 其中 表示节点估值,N(n) 为访问次数。

风险评估:若候选解的估计风险 ,则提前停止并输出该解。

预算更新:若预算耗尽未达置信条件,输出最高置信度解。

2.3 共形风险控制停机准则

为实现统计意义上的置信保证,引入共形预测 [1]。设校准集 ΔDcal ,定义非一致性评分函数 s(x) 。候选解 Xt 的共形 p 值为:

若 pt⩽α ,则表明该解的置信度达 Δ1-α ,算法提前停止。该机制保证 P(error)⩽α 。

2.4 温度调度与多保真搜索

搜索初期温度高以促进探索,后期逐步降低以加速收敛:

e-βt+γ·uncertaintyt.

同时采用多保真模型结构:小模型(如 Llama3-8B)进行广泛探索,大模型(如 Llama3-70B)在高置信路径上精细验证,实现资源分层利用。

三、实验

3.1 实验设置

在 GSM8K(数学推理)与 HotpotQA(跨文档问答)上评估。对比基线包括:

·CoT [3]

·原始 ToT [2]

指标包括准确率、平均 token 消耗、置信覆盖率。

3.2 模拟结果

结果表明,BATS 在保持准确率的同时减少约 30% 计算开销,并能提供置信保证。

四、理论分析

BATS 满 足 有 限 样 本 误 差 上 界: , 其中 n 为校准样本数, R* 为真实风险。预算优化的最优性表达为:

说明算法能在有限预算下逼近最优风险– 成本平衡。

五、结论

本文提出的 BATS 算法在 ToT 推理框架下引入共形风险控制,实现了在预算约束下的任意时刻高置信推理。BATS 在保持准确率的同时显著降低推理成本,并保证错误概率的上界可控。未来将探索其在代码生成、医疗诊断及强化学习推理等任务中的推广与理论扩展。

参考文献

[1] A. N. Angelopoulos, S. Bates, A. Fisch, L. Lei, and T. Schuster. “Conformal Risk Control.”arXiv:2208.02814, 2022.

[2] S. Yao, D. Yu, J. Zhao, I. Shafran, T. Griffiths, Y. Cao, and K. Narasimhan.“Tree of Thoughts: Deliberate Problem Solving with Large Language Models.”arXiv:2305.10601, 2023.

[3] J. Wei et al.“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.”NeurIPS, 2022.

*本文暂不支持打印功能

monitor