收藏
加入书签

添加成功

收藏成功

分享到微博分享到空间分享到微信

面向无人集群的人机融合决策技术

孙峰

江苏自动化研究所江苏连云港 222000

打开文本图片集

摘要：为解决有人/无人系统人机决策分离的问题，本文通过“人机融合”的思想，提出一种以非单调推理理论为基础，充分发挥“人的认知智能、机器的计算智能”的新型决策方法。运用语义解析算法计算人工决策论据倾向，应用动态画像算法计算人工决策论据权重，应用辩论模型方法计算机器辅助决策和人机融合决策结果。通过人机决策交互过程迭代人工决策类型权重降低人机决策分离影响，提升有人/无人系统的决策效率。

关键词：无人集群；人机融合；决策

Abstract： To solve the problem of human-machine decision separation in manned/unmanned systems， this paper proposes a new decision-making methods based on non-monotonic reasoning theory and fully utilizing the cognitive intelligence of humans and the idea of “human-machine fusion”， Using semantic parsing algorithm to calculate the tendency of artificial decision evidence， applying dynamic portrait algorithm of calculate the weight of artificial decision evidence， and applying debate model method to calculate the results of machine assisted decision-making and human-machine fusion decision-making. By iterating the weight of manual decision types through the human-machine decision interaction process， the impact of human-machine decision separation can be reduced， and the decision-making efficiency of manned/unmanned systems can be improved.

Keywords： Unmanned clusters; Human-machine fusion; Decision-making

0.引言

面对智能化无人系统快速、复杂、多变以及数据庞大的特点，单纯依靠指挥人员进行态势读取、分析、并做出决策已经不符合时代要求，人机共同参与指挥决策是当前智能化系统发展的必然趋势。系统的指挥决策应当充分发挥人与机器的互补优势，建立高效智能的指挥决策体系。基于智能化系统的特征及人工智能的局限性，我们有理由认为，智能化系统指挥决策的发展方向应当是人机融合、优势互补的。人类擅长归纳、推理、决策、指挥等认知能力要求高的活动，具有主动性、思想性、创造性，但人的生理和心理状态易受环境影响。机器则擅长搜索、存储、计算、优化等技术性要求高的活动，具有精准性、快速性、重复性，并且相对人类而言，机器能够在复杂环境中突破生理极限、消除认知偏差、提供最优方案。因此，人机融合智能系统可以将大量的数据进行分析和处理，从而提高决策的准确性和效率。同时，人类也可以通过与机器的合作和互动，不断学习和进步，拓展自身的认知和技能[1][2]。

1基于语义解析的人工决策倾向计算方法

针对人工决策的文本信息，需要先解析出文本内容中的命名实体信息，相当于代码中的“指针”，有了指针才能有目标的调取和应用文本所解析出的相关内容。

1.1命名实体识别

传统的命名实体识别方法通常是将其转化为一个序列标注问题来解决，最典型的方法之一使用CRF进行命名实体识别。基于序列标注的命名实体识别方法可以很容易的识别不包含实体嵌套的命名实体识别，但是并不能准确地识别嵌套实体。例如，「中国江苏省」就是一个命名实体；文本中抽取更多细节的关系，不仅要将「中国江苏省」的「江苏省」标注出来，同时「中国」也要标注出来，命名实体有一定的嵌套关系。为了支持对嵌套命名实体具有较好的识别效果，采用了基于注意力机制的编解码框架（attention encoder-decoder），其结构图如下：

该模型包括三个模块，第一个模块是使用一系列的1-维卷积核生成输入序列的特征表达，第二个模块是使用注意机制构建网络层，第三个模块是使用基于双向GRU或者LSTM编码器和解码器构成，通过解码器计算最大条件概率，从而完成嵌套实体的识别。

1.2文本分类

文本分类任务是自然语言处理（NLP）领域基础和传统的任务之一，卷积神经网络（CNN）和循环神经网络（RNN）及其变体，在意图分类中有很多应用。RNN模型擅长对整个句子进行建模，捕捉长距离依赖信息。然而，RNN对整个句子建模有时会成为一种负担，使模型忽略了关键的短语信息。CNN模型则正相反，更擅长抽取局部的位置不变特征，而不擅长捕捉长距离依赖信息。

针对以上问题，本文应用DRNN（Disconnected Recurrent Neural Networks）模型，通过限制RNN模型信息的流动，将位置不变性引入RNN模型中。这使得DRNN模型既能捕捉长距离依赖信息，又可以很好地抽取关键短语信息。具体来说，DRNN会阻断RNN模型的信息流动，使其最多只能传递固定的步长k。这样的话，每个时刻的隐层状态就只和当前词以及前k-1个词相关。DRNN是一种通用的模型框架，可以应用在很多任务中，主要将其应用在意图分类任务中。DRNN采用GRU作为循环单元，得到DGRU（Disconnected Gated Recurrent Unit）模型。首先将DGRU的每个隐层表示送入MLP中，来抽取更高层的特征信息。其次，通过Max Pooling来抽取整个文本中最重要的信息，然后通过一层MLP送入softmax中进行分类。

2 基于用户画像的人工决策权重计算方法

人机交互领域在很早就提出了用户画像的概念，在进行系统设计的时候会使用用户画像了解用户需求和目标来进行产品开发。

用户画像这一概念最早是由Cooper在1999年提出，Cooper对用户画像的定义是“用户画像是基于真实用户虚构出来的原型，他们不是真实的人，但是可以在设计过程中代表真实的用户[3]”。后续出现的关于用户画像的定义基本上都在Cooper 的这一定义上进行衍生。Goodwin 认为用户模型或者说用户画像是虚构的、细节丰富的典型用户，它们代表了研究阶段观察到的有着不同行为、目标和动机用户人群[4]。Pruitt 等将用户画像定义为“虚构且具体的关于目标用户的描述[5]”，他们认为一个用户画像可以代表一群有着相似行为特点的用户个体。Nielsen认为画像是对虚构用户的描述[6]。虚构用户既可以充当建立同理心和身份认同的工具，也可以充当信息存储的角色，还可以是一种让人专注于特定市场用户的方法[7]。

本文应用用户画像技术构建指挥员指挥决策动态画像，用户信息提取自实验、测试过程中指挥员与指控系统的语音、文字交互过程[8]，画像标签将作为决策过程中的用于计算辩论结果的各项论据，标签权重将用于计算融合决策结果[9]。

2.1词频逆文本词频算法

TF-IDF（term frequency–inverse document frequency，词频逆文本词频算法）是一种短语加权表示技术，主要是基于词频和逆文本词频相乘得出，原理简单，效果明显。TF-IDF被广泛应用于自然语言处理和搜索引擎等应用，用来评估文档的权重指数[10]。

其中，词频tf为某个词在A指挥员所有交互的指挥术语中的词频在A指挥员所有交互指挥术语关键词总数中的占比；逆文档频率idf为所有指挥员交互术语总数与包含该关键词的文档数的比值取对数。

2.2时间衰减算法

时间衰减是一种在数据建模中常用的技术，特别是在涉及时间因素的场景下，例如用户交互行为、评价等数据。时间衰减技术通过对数据进行加权，使得离当前时间越近的数据权重越高，而离当前时间越远的数据权重越低。这样可以让模型更关注最近发生的事件，从而提高预测效果的准确性。时间衰减算法一般有：线性衰减、指数衰减以及其他自定义衰减。

指数衰减：权重随着时间以指数形式递减。指数衰减通常使用更广泛，因为它能更平滑的对权重进行调整。

其中，为衰减因子；t在本项目中为系统运行时间。

2.3决策论据权值更新算法

本文将指挥员决策的交互信息标签化，通过搜集指挥员决策过程中的关注内容、倾向等维度的数据，进而对所关注的特征属性进行刻画并对这些特征进行分析统计为标签，标签对应辩论模型中的论据，从而以更新指挥员用户画像标签权重的方式实现辩论模型决策论据权值的更新。

用户行为标签的权重：

其中：为用户行为标签的权重，为行为类型权重，为时间衰减，为TF-IDF 标签权重，为用户行为次数。式中前两项和表达该标签的客观重要程度，后两项和表示该标签对该用户的重要程度。

3 基于辩论模型的人机融合决策方法

3.1非单调推理逻辑理论

推理是人类一种高级的智能活动，其过程是极其复杂的。传统的推理方法都是以经典的一阶逻辑为基础的，在一阶逻辑中，当对公理集合增加一些新的公理时，一般说来都能证出更多的定理，绝不可能取消先前己经证明了的定理，也是说公理集合是单调增加的，绝不能减少，通常把一阶逻辑的这种性质称为单调性。

但一阶逻辑也有它的缺点，这就是它总是静止地看问题，没有考虑到人们在推理过程中的思维变化过程。例如，所有的鸟儿都能飞，但企鹅和鸵鸟例外。所有桔子是黄的，但未熟和变异品种例外。既然这类综合性概括语句不是绝对正确的，采用这些语句进行的推理也不可避免地要产生错误。一种简便而又妥善的处理办法就是先假定这类语句是正确的，并依据它们进行推理，如果得出了与事实不符的荒谬结论，再取消得到的结论，这样一来，推理就具有了非单调性。非单调推理在增加一些新的事实的情况下，推翻以前的结论，这是符合人们对事物的认识过程的。

3.2辩论模型

辩论理论（Argumentation theory）可以用于形式化各类非单调推理（不仅可以用于刻画个体Agent的内部推理，如信念修正、慎思、手段目的推理和决策等，而且可以用于阐明多Agent交互时的推理模式，如协商、对话和说服等），比传统非单调推理形式体系（如缺省逻辑、自认识逻辑、限定推理等）具有更强的通用性。

基于辩论系统的非单调逻辑对推理非单调性的刻画以及对冲突信息的处理是在论证的层面上实现的，而不是通过传统的模型论的方式实现的。与传统的优先蕴涵用于缺省的内涵语义，以及一致性和不可证明性方法不同，它先将所有的推理知识和观察信息都构造成了论证（无论这些论证是相互支持的还是相互反对的），然后再分析这些论证之间支持、冲突以及击败的关系，从而依据这种关系判断某一个论证是可接受的还是不可接受的，最终给出推理的结果。

本文以Toulmin模型和IBIS模型为基础，将两个模型的优势进行结合，提出一种改进的基于问题的辩论模型和节点可信度计算方法，最终得出辩论结果。

我们将Toulmin模型争议的内部结构引入到IBIS模型中，同时增加了研讨对话过程，构建了一种改进的基于问题的辩论模型。该模型主要包括主题、问题、主张和论证，以及各部分之间的逻辑关系。

a）主题。主要指此辩论模型的中心思想或主要内容，分大主题、小主题；或1级主题、2级主题、3级主题等。

b）问题。主要包括议题、疑问和难题等。议题是指需要讨论的问题，疑问是指需要做进一步说明或者解答的问题，难题是指需要处理或者解决的比较棘手的问题。

c）主张。它是对问题的响应，是为解决某一问题而提出的解决方案、措施、计划、手段或者观点等。

d）论证。它是对主张进行的判断，表明立场和态度（反对或支持）。论证也可以看作是一个主张。本文将Toulmin模型中的主张和论证分离，论证主体部分包括论据和模态限定。论据既包括主观判断、经验或者知识的陈述，还包括可证明或者无需证明的公认命题，或可信事实数据、实验数据等。模态限定起着连接论证和主张的作用，说明结论是肯定地得出还是有可能得出。支援的目的是支持整个论证，反驳是对论证的否定或者削弱。对于论证有两种规范：一是新提出的论证要与原有的论证不同，不能重复进行论证；二是在对主张进行论证时，每个论证只能表明一种态度，不能同时发表支持或者反驳两种态度的论证。

为了简化分析和计算，我们将改进的基于问题的辩论模型划分成多个以问题为中心的信息元模型。信息元模型为辩论分析的基本单位，每个信息元模型只包括一个问题和一个主张，表示针对这一个问题展开的辩论活动，将多个信息元模型进行组合就是对主题的辩论过程。将多个信息元模型的结果综合在一起就可以得到最终的辩论结果。图3为信息元模型架构图。

其中，为预先定义的语言集，表示强烈反对（SO， Strongly object），表示反对（O， Object），表示轻度反对（LO， Slightly object），表不确定（I， Inconclusive），表示轻度支持（LS， Strongly support），表示支持（S， Support），表示强烈支持（SS， Strongly support）。

3.3节点可接受度计算方法

设p为主张节点，A为论证节点集，，是节点之间的逻辑关系集，是从关系集R到语言评价集S的映射，则辩论图可表示为三元组，即辩论图是由主张和论证节点组成的赋权有向图，如图所示。

设有辩论图，且，表示论证节点a的前置节点集，为论证节点a的后置节点集。若，则称a为叶节点。设，若，则论证节点的可接受度为，表示没有支持或者反对论证节点a的节点。

若，则论证节点a的可接受度H（a）为

其中，表示语言术语集S的基。。I是判别论证节点可接受度的临界值。当时，表示辩论信息元模型中其余节点对a持赞同态度，且权值越高，赞同程度越高；当时，表示辩论信息元模型中其余节点对a持否定态度，且权值越高，否定程度越大。H（a）表明论证节点a的可接受度与它的前置节点的模态限定值及其可接受度有关。的可接受程度值越高，它所代表的意见越可信，因此其权重越大。

3.4人机融合决策计算方法

态势变化时决策系统给出警报并推送决策窗口，通过辩论模型对各论据进行推理计算可得各种主张的可接受度并推送最优主张，指挥员在判断态势后通过文字给出人工论据。在语义级融合过程中问答系统的语义解析模块将对人工论据进行解析：首先解析人工论据文本中的实体匹配用户画像的标签，通过公式3得到该人工论据的决策权重，然后基于文本分类方法得到该人工论据的人工论据的可接受度H（c），经融合计算可得到该项主张D的融合决策结果，如图所示。

由图可知：机器决策由前置节点组成，则节点p的可接受度为：

融合决策结果为：

在后续决策级融合的过程中指挥员判断当前决策建议是否合理，如果合理则同意执行，如果不合理给出否定信号，系统将推送次优主张。

4 实例分析

本文针对无人艇集群对航道区域进行巡逻典型场景，针对不遵守规则船舶的决策处理设计蒙特卡洛试验对比应用人机融合决策技术前后的反应时间以及系统综合效能。

4.1系统反应时间

程序记录从态势发生变化——经人机融合决策——到决策信息发送的时间。应用人机融合的系统反映时间提升的平均值为2秒，如图所示。

如图所示，由蒙特卡洛仿真实验得到的实验结果，应用人机融合智能指控技术的平行系统能够将系统反应时间提升25.70%。

4.2系统综合效能

系统级效能评估仿真以各功能领域系统装备模型为基础进行推演试验，各功能领域系统装备建模以体现描述装备功能及外特征、与其它装备系统的关联为主要内容。

本文中效能根据反应时间和行动效果综合计算得到，公式如下：

其中g为关系函数，Tc为反应时间，k为反应时间在系统综合效能中所占的权重系数，Eff为指控操作有效性，。

本实验记录系统中经人机融合决策后无人艇执行巡逻任务的效果；本文采用多平台联合行动最终的成果情况作为决策有效性的客观依据，经数据整理，实验中应用融合决策得到系统效能提升比例如图；由蒙特卡洛仿真实验得到的实验结果，应用人机融合智能指控技术的平行系统能够将系统综合效能提升20.12%。

5结束语

本文所研究的人机融合决策技术应用基于语义解析的人工决策倾向计算方法、基于用户画像的人工决策权重计算方法、基于辩论模型的人机融合决策方法为有人/无人混合系统提供了一种人机意图能够有效融合的决策方法，能够有效降低指挥者对环境信息感知的负荷，提升系统运行的整体效能。

参考文献：

[1]刘伟.智能与人机融合智能.[J].指挥信息系统与技术.2018.9（4）：1-7.

[2]孙峰.一种基于海空无人集群的自杀式无人艇防御策略[J].水下无人系统学报，2024，32（2）：267-274319

[3]徐宣志.鱼雷力学[M].北京：国防工业出版社，1992.

[4]Von KT.The impact of seaplane floats during landing [R].Washington USA： National Advisory Committee for Aeronautics，NACATN321，1929：1-8.

[5]Wagner VH.Phenomena associated with impacts and sliding on liquid surfaces[J]. Z Angew Math Mech，1932（12）：193-215.

[6]Oger G， Doring M， Alessandrini B. Two-dimensional SPH Simulations of Wedge Water Entries [J].Journal of Computational Physics，2005（213）：803-822.

[7]Cooer A.The inmates are running the asylum.California：Sams Publishing，1999，123-198

[8]Cade S， Goodwin K， Reimann R. SHS Orcas： The firstintegrated information system for long-term healthcare facility management. In： Case Studies of the CHI 2002 |AIGA Experience Design FORUM. New York： Association for Computing Machinery， 2002， 2-16.

[9]Pruitt J， Adlin T. The personal ifecycle： keeping people in mind throughout product design. San Francisco： Morgan Kaufmann，2006，46-65.

[10]Nielsen L. Engaging person as and narrative scenarios： [dissertation].Copenhagen： IT University of Copenhagen，2004，117-190.

作者简介：孙峰，出生日期：1989年4月，性别：男，籍贯：江苏徐州，民族：汉族，学历：硕士研究生，职称：工程师，研究方向：人机融合、无人系统

*本文暂不支持打印功能