• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于GPT-4和知识图谱的自动驾驶智能决策框架研究

闻东海 肖增博 修瑞杰
  
卷宗
2023年14期
1.31539部队 2.93221部队 3.北京四季青医院

打开文本图片集

摘要:自动驾驶是汇集众多高新技术的综合系统,作为关键环节的智能决策控制,需要处理大量光学图片、雷达等信息以完成驾驶决策,如何使用这些信息进行逻辑推理和决策一直是个难题。本文提出了融合GPT-4和知识图谱的自动驾驶智能决策框架,首先运用GPT-4模型将光学信息和图片信息处理为文本信息,进而结合知识图谱进行推理,实现自动驾驶。

关键词:GPT-4;智能决策;知识图谱

自动驾驶系统[10]主要涉及环境感知、逻辑推理、执行控制三大领域。其中:环境感知主要是利用车载高清摄像头、毫米波雷达、激光雷达、超声波雷达等传感器获取外界信息;决策规划主要通过收集的异构数据,对车辆的下一步行为作出判断和指导;控制执行主要通过信号指令控制汽车的油门、制动、转向等执行机构,完成车辆横向和纵向控制。

处理异构环境感知信息进而完成驾驶决策,一直是自动驾驶研究的重点和难点。本文提出运用GPT-4模型和知识图谱来进行汽车感知信息处理,进而完成自动决策。

一、深度学习

深度学习[6]模型是指运用多层神经元组成的网络来近似某个函数,进而得到输入和输出数据之间的关系。通过对参数的学习,得到最佳的函数近似。包括前馈神经网络和循环神经网络。前馈神经网络是指信息流向从后到前,神经元之间没有反馈连接[6]。循环神经网络是指神经元之间包含反馈连接。前馈神经网络将许多不同函数复合在一起来表示,形成一个链式结构[3]。训练数据提供了在不同训练点上含有噪声的近似实例,学习算法决定如何使用这些数据来更好的进行实现函数[6]。当使用前馈网络接收数据并产生输出时,信息通过网络一直向前流动,输入提供初始信息,然后依次传入后面的隐藏层,最后产生输出。这个过程称为前向传播。网络参数的训练采用反向传播算法[5]。一般采用链式总则实现反向传播。

循环神经网络是用于处理序列数据的神经网络,专门用于处理序列神经网络。循环神经网络可以处理定长和变长的序列。该网络通过不同方式共享参数,输出的每一项是前一项的函数,并且输出的每一项对先前的输出应用相同的更新规则[6]。循环神经网络包括三种主要设计模式。第1种为每步都有输出,隐藏层之间有循环连接。第2种为每步都有输出,只有当前输出和下一时刻输出之间有连接。第3种为隐藏层有连接,最后只产生单个输出。其变异包括长短期记忆(LSTM)网络。LSTM使得自循环的权重根据上下文而定,累计的时间尺度可以动态的改变。其状态单元具有线性自循环,其权重由遗忘门控制。输入单元具有可任意压缩的非线性,所有门控单元都具有非线性。状态单元可以用作门控单元的额外输入。图1为前馈神经网络示意图。图1为一个简单地普通前向神经网络,这种网络内部没有环,即网络中的神经元输出不可以影响输入。

二、GPT模型

GPT是OpenAI[9]在论文Improving Language Understanding by Generative Pre-Training中提出的生成式预训练语言模型,通过在不同的无标签文本语料库上对语言模型进行生成式预训练,然后对每个特定任务进行判别性微调。GPT模型可以很好地完成若干下游任务,包括文本分类、语义蕴含、文本相似度、文字多义等任务。使用者可以直接使用训练好的深度模型架构和参数作为初始状态,用少量的数据标签进行微调,就可以得到针对特定任务和领域的专用高性能模型,既可以节约训练时间和成本,还提高了模型的表现能力。其核心原理如图2所示。GPT 使用 Transformer的Decoder结构,并对Transformer的Decoder 进行了一些改动,原本的Decoder包含了两个Multi-Head Attention结构,GPT只保留了Mask Multi-Head Attention。

GPT利用常规语言建模方法优化给定文本序列 最大似然估计,

使用随机梯度下降法来优化该似然函数。

训练阶段为文本预测,即根据已有的历史词预测当前时刻的词,GPT结构图输出P(x)为每个词被预测到的概率,再利用公式,计算最大似然函数,据此构造损失函数,即可以对该语言模型进行优化。

下游任务使用有标注数据进行训练和优化。首先将文本输入到预训练的GPT模型中,获取最后一层的输出,通过全连接层变换,来预测最终的标签。最后通过损失函数对下游任务进行精调,训练时加入预训练损失函数,降低灾难性遗忘问题。

三、知识图谱

知识图谱[6]是一种使用图结构建模事物及数据间联系的数据表示形式。知识图谱研究的主要内容包括知识表示、知识抽取、知识融合、知识推理4个部分。知识图谱的本质是大规模语义网络,采用三元组形式表示知识。由节点(实体)和边(实体之间的关系)组成,数据以(头实体,关系,尾实体)的三元组形式储存,形成一个图状知识库,构成知识图谱数据层。在数据层之上是模式层,其中存储的是经过提炼的知识,是知识图谱的核心。

知识图谱[1]将数据通过标准化存储、抽取转变成由拓扑关系和符号组成的知识结构,可以更加有效的将知识之间的关系展现出来,并利于后续处理。知识图谱为认知智能提供了从全局角度描述客观世界的能力,具有语义抽象能力和拓扑结构,有效聚集了复杂问题需要的多模态信息。因此,知识图谱可以帮助认知智能更好的理解信息,处理信息。

四、自动驾驶智能决策框架

提出的自动驾驶智能决策框架如图3所示。首先将汽车环境感知信息多来源、多结构的数据通过GPT-4模型转化为语言文字信息,并与知识图谱进行融合,知识图谱经过格式转化、实体链接等操作,运用知识图谱推理决策功能实现自动驾驶决策。

参考文献

[1]吴睿.知识图谱与认知智能[M].中国工信出版集团,2022.

[2]王乃钰,叶育鑫,刘露.基于深度学习的语言模型研究进展[J].软件学报, 2021,32(4):1082–1115.

[3]邵浩,刘一烽,预训练语言模型[M],中国工信出版集团,2021.

[4]王琦,杨毅远,江季,Easy RL:强化学习教程[M],人民邮电出版社,2022.

[5]余同瑞,金冉,韩晓臻等.自然语言处理预训练模型的研究综述[J]. 计算机工程与应用, 2020,56(23):12-22.

[6]闻东海,修瑞杰,孙玉停,郭宝宝.信息不完全状态下智能车辆突发情况感知框架研究[J].汽车博览,2022.09:87-89.

[7]Fan Bao,Shen Nie,Kaiwen Xue.One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale[J].Preprint.

[8]西格尔斯·西奥多里迪斯,Easy RL:机器学习贝叶斯和优化方法[M],机械工业出版社,2021.

[9]RADFORD A,Improving Language Understanding by Generative Pre-Training[C],2018.

[10]韩胜明,肖芳,程纬森.深度强化学习在自动驾驶系统中的应用综述[J],西华大学学报,2023,42:1-7.

作者简介

闻东海(1982.10-)男,汉,河北廊坊,博士,副研究员,研究方向:人工智能决策。

*本文暂不支持打印功能

monitor