- 收藏
- 加入书签
垂直领域大模型发展回顾与展望
摘要:通过回顾垂直领域大模型的发展历程及其当前应用现状,展望其未来趋势和发展路径。在大模型发展历史回顾的基础上,综述了垂直领域大模型的分类、相关领域的开发与实践研究,最后对垂直领域大模型的技术发展、行业应用和产业转型前景进行了展望。垂直领域大模型可从训练策略、模态特性、任务类型等方面进行分类概述,并在生物医学、金融、法律、古籍等多个领域进行了模型开发和领域实践研究。垂直领域大模型的未来有着专业化和轻量化趋势,同时具有行业应用优势、推动产业智能化转型方面的广阔前景,但也面临诸多挑战。
关键词:垂直领域大模型;垂直大模型;人工智能;综述
中图分类号:G350;TP18
近年来,人工智能大模型取得了突破性进展,广泛应用于多个领域,推动了技术创新并为相关行业提供了新动力,对社会各个层面产生了深远影响。然而,大模型的发展仍面临着算力瓶颈、算法局限、数据时效性不足等诸多挑战。相较于通用大模型,垂直领域大模型(Vertical Domain-specific Large Models,VLDM),通过在特定垂直领域专门设计和优化,展现出明显优势。这些模型在性能上能够更为精准的解析和处理特定领域问题,在效率上能够以较低的计算资源实现高效的处理速度,在实践应用上能够精确匹配行业需求,提高实际应用的适应性和实用性。
为系统了解垂直领域大模型的研究进展,本文在 Web of Science数据库中以TS=("Vertical" OR "Domain-specific" OR "Pre-training" OR "Large Language") AND "Models"为检索式进行检索,在Google Scholar中以上述词组为关键词进行检索,在CNKI数据库中以“SU=垂直OR SU=领域OR SU=预训练 OR SU=大语言 AND 模型”为检索式进行检索。鉴于垂直领域大模型近年的快速发展,检索时间范围设为2014-2024年,同时通过回溯检索和审读筛选,最终筛选出与本文主题相关的学术文献103篇。
通过文献检索和梳理,目前与垂直领域大模型研究相关的综述文献主要有大模型的技术进展和研究动态,具体领域综述有医学、金融、材料科学、农业等多个方面,但针对垂直领域大模型领域应用方面的系统梳理尚不完善。因此,本文在对大模型进行概述和垂直领域大模型分类剖析的基础上,系统梳理垂直领域大模型的领域研究和行业应用,最后对垂直领域大模型的未来发展趋势进行展望。
1 大模型发展概况
垂直领域大模型通常是在通用大模型的基础上发展而来,通过将特定领域或行业数据整合到通用模型中,进行微调和优化,从而获得更精准和高效的性能,更好地适应了专业领域的复杂需求。而大模型的发展是大语言模型技术逐步演进和成熟的自然结果,因此大模型的发展历史可以追溯到早期语言模型的发展。
1.1 语言模型的发展
早期的语言模型主要基于统计概率来预测和理解文本中的词序列。最典型的是N-gram模型,该模型假设一个词的出现依赖于其前n-1个词的序列,根据前n-1个词的序列预测第n个词的出现概率。随着深度学习技术的发展,神经网络模型(NNLM)开始取代传统的基于规则和统计的语言模型。其中,前馈神经网络(FFNN)被用于学习词的分布式表示,并以此预测文本中下一个词的出现,但这类模型通常只能处理固定长度的输入,这一限制阻碍了模型对文本的深层次理解。与前馈神经网络不同,循环神经网络(RNN)能够处理任意长度的序列数据。循环神经网络通过在每个时间步重复使用相同的权重参数,并传递隐藏状态,从而保持对之前信息的记忆。然而,RNN在处理长序列数据时,经常遇到梯度消失和梯度爆炸的问题。为了克服这些局限性,长短时记忆网络(LSTM)和门控循环单元(GRU)被提出,用来解决梯度相关问题,这些改进显著提高了模型在处理长序列数据时的稳定性和效率。
1.2 预训练模型的发展
随着深度学习技术的成熟和语料库规模的增长,研究者逐渐认识到直接对自然语言处理任务的数据进行训练存在局限性。预训练模型因此成为有效的解决方案,影响较大的有Google的Tomas Mikolov等提出的Word2Vec模型和斯坦福大学Jeffrey Pennington等提出的GloVe模型。Transformer架构的提出改变了预训练模型的发展方向,成为自然语言处理的重要转折点。区别于传统的序列到序列模型,Transformer采用自注意力机制,使得序列中任意两点之间能够建立直接联系,极大地提高了处理效率。基于Transformer架构,产生了多种变体。BERT模型采用双向Transformer编码器,通过无监督学习捕捉上下文的语言表示。为提高效率和降低成本,一些改良模型通过不同方式对BERT进行了改进,如RoBERTa、ALBERT、百度的ERNIE等。GPT系列模型采用自回归方式进行训练,通过不断扩大参数规模和数据集实现了从GPT到GPT-4的演进,特别是GPT-3凭借1750亿参数和广泛数据集展示了强大的泛化能力,InstructGPT通过RLHF算法进一步优化了人机交互,而GPT-4在多模态信号处理、复杂性与性能上再创新高,标志着人工智能的新阶段。
1.3 大模型发布现状
图1展示了近5年国内外部分头部企业大模型发布时间轴,国外方面选取了OpenAI、Google、Meta等企业大模型,国内方面选取了百度、腾讯、华为、清华智谱等企业大模型。这些企业在国内外人工智能领域处于领先地位,具有显著的技术优势和广泛影响力。
OpenAI的GPT系列在自然语言处理领域具有里程碑意义,已在上节预训练模型的发展中进行介绍。Google的BERT及其后续模型深刻影响了深度学习发展,其T5模型将文本任务统一为文本到文本格式,mT5扩展为多语言版本,PlaM及其升级版PlaM2通过Pathways系统提高了效率和灵活性,Flan-T5和Flan-PaLM优化了零样本与少样本学习能力。Meta自2022年起先后推出OPT系列及LLaMA系列,其中OPT-175B以低资源实现GPT-3相当性能,OPT-IML通过在多样化的任务指令提高了模型的泛化能力,NLLB支持200+语言翻译,Galactica则专注于科学知识的存储和检索。LLaMA-2通过微调LLaMA的对话用例进行了优化,LLaMA-3则通过大规模数据训练结合多种优化技术,性能再创新高。国内百度Ernie系列借助知识增强预训练取得突破,华为PanGu系列采用稀疏模型提升泛化能力,智谱AI的GLM系列在问答与文本生成中表现出色,特别是2024年发布的GLM-4具备更强的上下文理解、多模态处理及推理速度。
2 垂直领域大模型的分类
虽然通用大模型在任务推理和泛化能力方面表现出色,但面对复杂任务和专业化问题时通常表现不佳。为克服这一局限性,垂直领域大模型通过针对特定行业、领域或任务的大规模专业数据集进行训练,从而提供更加精准和专业化的解决方案。广义上,任何专门处理特定任务的大模型都可被归类为垂直领域大模型。垂直领域大模型可从训练策略、模态特性、任务类型等方面进行分类。
2.1 基于训练策略划分
按训练策略进行分类,主要有两种方法,第一种是通过改变模型权重来进行领域性能优化,如从头构建、二次预训练、微调等技术;第二种是不改变模型权重,通过情境学习或检索增强生成来增强模型的应用能力。这两种方法各有优势,改变权重的方法训练成本较大,适合于任务目标明确、数据质量高的任务需求,而不改变权重的方法则更加灵活,适合于高度适应性和扩展性的任务需求。
改变权重的训练策略:①从头构建是指将通用数据和专业数据混合,从零开始训练大模型,如BloombergGPT使用了专业金融数据和维基百科等通用数据,这种混合训练的方法目标是即能增强模型的泛化能力,又能保持其在金融领域的专业性和准确性。②二次预训练即在通用模型训练完成后,对模型进行领域数据的预训练,使其在处理领域任务时,能够更好地理解与生成领域相关信息,从而提高垂直领域大模型的领域信息处理能力。③微调(Fine tuning)是当前训练垂直领域大模型的常用做法。其基本思想是通过在较小的特定领域数据集上微调模型来增强其特定任务的性能,微调可以分为两种主要方式,指令微调(Instruction Tuning)和对齐微调(Alignment Tuning)。前一种方法旨在增强大模型的能力,而后一种方法旨在将大模型的行为与人类的偏好对齐。为了使模型快速适配,还可使用参数高效微调(Parameter-Efficient Fine-tuning),旨在减少可训练参数的数量的同时尽可能保持良好的性能,是当前大模型研究的重要课题。
不改变权的重训练策略:①情境学习(In-context learning)是一种通过给定示例来让模型进行学习的训练策略,无需进行额外的参数更新或微调。其核心在于精准的设计指示,使领域信息能够有效融入到模型的输入中。情境学习避免了传统微调过程中可能出现的过拟合问题,特别是在标注数据有限的情况下,展示了极高的灵活性和适应性。②检索增强生成(Retrieval-Augmented Generation)通过整合外部数据库的知识来提高内容生成的准确性和可信度。特别是在特定领域的专业信息处理上,利用向量数据库等技术在领域知识库中检索相关内容,再通过大模型生成相应回复,这对于特定领域信息和持续更新的知识的内容生成具有较好的效果。
2.2 基于模态特性划分
按所处理的数据模态进行分类,可分为单模态大模型、多模态大模型和跨模态大模型。
单模态大模型专注于处理单一类型的数据模态,使其在某一类型的数据处理上表现出色。除了上文介绍的诸多文本模型外,在视觉领域,主要有ResNet、ViT、EfficientNet、Swin Transformer等,这些模型在图像分类、图像处理、图像分割、对象检测等方面表现出较高的效率和精度。在音频领域,主要有DeepSpeech和WaveNet等,通过深度学习技术处理和转换声音信息号,实现从语音到文本的精确转换和自然语音的生成。单模态模型在其垂直领域内通过专注于一种数据类型,能够实现对该模态数据的深入分析和高效处理,从而优化性能和应用效果。
多模态大模型是指能够同时处理和整合多个模态数据的大模型,,当前多模态大模型主要为视觉-语言大模型,即能够同时处理文本与图像、文本与视频的模态数据,如CLIP系列、BLIP系列、Flamingo、ALIGN等,这些模型通过高效地融合文本和视觉信息,显著提升了在多模态任务中的表现。
跨模态大模型不仅能够理解和处理来自不同模态的数据信息,而且能够实现这些模态之间的转换和互动。其核心能力在于从一个模态中获取信息并应用到另一个模态中,实现数据的跨模态转换。如从文本到图像生成的模型Midjourney、Dall-E、Stable Diffusion是这一领域代表,文本到视频生成模型有Sora等。
2.3 基于任务类型划分
按处理特定任务类型进行分类,可分为语言模型、图像视频模型、推荐系统、自动驾驶、代码生成等类别。语言模型是大模型应用的重要分支,也是当前大模型研究的热点之一。语言模型涵盖多种功能,又可细分为文本摘要、文本分类、情感分析、语言翻译、自动问答等。图像视频处理模型主要用于图像识别、人脸识别、医疗成像辅助诊断等目标任务。推荐系统模型利用用户过去的行为来预测用户偏好,用来推荐用户可能感兴趣的项目,相关的模型应用有DLRM模型等。自动驾驶模型被用于车辆导航、交通流量分析、事故预防等目标,常见的应用有特斯拉自动驾驶FSD、华为高阶智能驾驶系统ADS等。代码生成模型通过输入的上下文和规则生成所需要的代码或对输入的代码进行理解,相关模型有GitHub Copilot、OpenAI Codex、CodeBERT等。此外,由DeepMind开发的AlphaGo,基于深度神经网络和强化学习技术进行训练,在围棋领域取得巨大成绩。
3垂直领域大模型开发与实践研究
垂直领域大模型的相关研究涉及多个方面,如领域数据集构建、知识迁移、微调技术、检索增强生成、人类反馈强化学习、模型测试评估等,上述研究涉及较多技术细节,在此不作阐述,本文重点关注垂直领域大模型的开发和领域实践研究。
当前垂直领域大模型的开发与领域实践可以说是百花齐放,主要涵盖了生物医学、金融、法律、古籍等诸多领域。这些领域数据结构复杂、知识专业化程度高,既是垂直领域大模型发展的重点方向,也是人工智能对行业应用的重要探索方向。综述这些领域的研究进展有助于厘清当前大模型在不同行业的适配性,同时大模型的领域实践研究进展也预示着人工智能在未来社会中的广泛应用和重要影响。
[102] QI Z, YU Y, TU M, et al. Foodgpt: a large language model in food testing domain with incremental pre-training and knowledge graph prompt[j]. Arxiv preprint arxiv:2308.10173, 2023.
[103] YANG X, GAO J, XUE W, et al. Pllama: an open-source large language model for plant science[j]. Arxiv preprint arxiv:2401.01600, 2024.
基金项目:安徽省哲学社会科学规划项目“基于关联数据安徽非物质文化遗产知识库建设研究”(项目编号:AHSKY2019D069)
作者简介
王伟,男,1982年生,硕士,副研究馆员;
Abstract: This paper reviews the development history and current applications of vertical domain-specific large models, providing an outlook on their future trends and developmental pathways. Based on a retrospective analysis of the historical evolution of large models, the paper summarizes the classification of vertical domain-specific large models and explores their development and practical research in various domains. It further discusses the technological advancements, industry applications, and industrial transformation prospects of vertical domain-specific large models. These models can be categorized by training strategies, modality characteristics, and task types, and have been developed and practically applied in fields such as biomedicine, law, and classical literature. The future of vertical domain-specific large models shows trends toward specialization and lightweight design, with significant potential for industry applications and driving industrial intelligent transformation. However, they also face numerous challenges.
Keywords: Vertical Domain-Specific Large Models; Vertical Large Models; Artificial Intelligence; Review
3.1 生物医学领域
生物医学数据具有强烈的专业属性和隐私保护需求,对大模型的准确性、可解释性和安全性提出了更高要求。在基础生物医学、临床医疗保健、医疗服务保障等方面发挥了重要作用,凸显了垂直领域大模型在生物医学领域的广泛应用潜力。在基础生物医学方面,通过Transformer编码器模型训练,实现对分子特性的准确快速预测,从而为深入理解细胞机制及新药物的设计提供支持。同时,提出构建生物医学工程ChatBot来创新和设计医疗设备等多样化功能,促进生物医学工程研究。在临床医疗保健方面,视觉垂直领域大模型能够协助医学图像分析,识别X 射线或 MRI 扫描中的特定病理特征,提高诊断的准确性和效率。利用大模型生成的放射学报告经评估完整正确,表明大模型在改善以患者为中心的放射学和其他医疗领域展现出巨大潜力。在医疗服务保障方面,医疗大模型的应用涵盖了临床、管理、教育和公共卫生等多个方面,面临的挑战有提高模型的准确度、透明度、可解释性、数据隐私、安全等问题。通过对大模型在医疗服务领域的综合分析,已形成关于其应用的广泛专家共识。
在生物医学大模型的开发研究上,ClinicalBERT(2019)针对临床记录进行建模,有效评估临床笔记质量。BioBERT(2020)在大规模生物医学语料库上进行预训练,增强了模型对复杂的生物医学文本的理解能力。BioGPT(2022)基于Transformer预训练模型处理生物医学文献,通过生物医学自然语言处理任务评估,获得较高准确率。CohortGPT(2023)利用知识图谱作为辅助信息, 通过强化学习增强的样本选择策略优化了模型性能。ChatDoctor(2023)基于LLaMA模型对医患对话进行微调,显著提升了模型在建议提出和需求理解方面的性能。DeId-GPT(2023)从非结构化医学文本中屏蔽私人信息的同时保留文本结构和含义。HuatuoGPT(2023)通过监督微调的方式,平衡了蒸馏数据与真实医生数据,提升了医疗咨询水平。DoctorGLM(2023)收集并利用中文医学对话数据集,在医病沟通与健康咨询方面表现出较好性能。Zhongjing(2024)作为首个基于LLaMA的中医领域大模型,构建了包含真实医患对话的中文多轮医疗对话数据集,显著提升了模型在处理复杂对话和主动询问方面的能力。
3.2 金融领域
金融数据实时性强且波动性大,对风险控制、市场预测等任务要求精准分析和快速决策能力。金融垂直领域大模型的研究涵盖了金融情绪分析、市场预测、数据处理、风险控制和审计等多个方面。在金融情绪分析方面,研究通过操纵金融文本欺骗机器阅读器的可能性,指出传统的情绪分析技术在面对大语言模型可能存在的脆弱性。在市场预测方面,大模型在新闻事件评估与股票市场回报之间存在着显著的正相关性,突显了其在金融市场分析中的潜在价值。金融数据处理方面,通过预训练金融文本语料库构建的金融领域模型,在捕捉和理解金融市场信息上发挥了关键作用。风险控制方面,数字人工智能与大模型的融合创新,可帮助银行建立起企业级知识库并进行有效的企业风险评估,从而提升信贷业务质量、降低成本和提升效率。审计方面,通过分析我国审计信息化理论研究和实践应用的现状,尽管大模型分析上存在短板,但同时也拥有广阔的应用前景。
在金融垂直领域大模型的开发研究上,FinBERT(2020)采用大规模金融通信语料库预训练金融领域 BERT 模型, 专门为金融 NLP 任务而设计。BloombergGPT[46](2023)整合的FINPILE数据集融合了3630亿参数的金融专有数据和3450亿参数的通用数据,通过混合数据集训练,显著提升了模型在多种金融任务上的性能。FinVis-GPT(2023)融合指令调整和多模态功能,开发金融特定数据集,用于预训练对齐和指令调整,在生成描述、自动问答以及预测市场趋势等相关任务中表现出色。CFGPT(2023)基于Transformer架构,构建金融领域的大模型,其数据集包括监督微调CFData、管理金融文本CFLLM、部署框架CFAPP等。XuanYuan(2023)采用BLOOM架构,并通过混合调优的方法,构建最大的中文金融领域聊天模型。EcomGPT(2024)构建了电子商务领域的首个指令数据集EcomInstruct,并利用该数据集训练了 BLOOMZ 架构下的不同参数尺度的模型,进一步增强了模型在电商领域的应用效率和精度。LLM4Fin(2024)通过模型微调和算法设计显式与隐式整合领域知识的方法,提高了模型测试场景覆盖率并缩短了生成时间。
3.3 法律领域
法律数据语言严谨,包含大量领域特定知识,大模型在法律领域的应用有助于降低法律咨询成本、优化司法资源分配,并为法律工作者提供更高效的技术支持。法律垂直领域大模型的研究涵盖了法律术语解释、法律判决预测等方面。法律术语研究方面,通过直接用 GPT-4以及提供相关上下文增强两种方法,评估了大模型在生成立法文本中的法律术语解释性能。法律判决预测方面,通过在英语法律数据集ILDC的实验表明,经过微调的法律领域模型能够很好地适应不同的法律语法、词汇和语法机构,显著提高了大模型根据事实预测最可能的法律判决的性能。提出法律判断预测框架PLJP,结合领域大模型的优势,利用历史案例加强对案件事实的理解与预测。同时,将负面先例引入大模型预测任务,开发的联合模型和索赔结果模型进一步证实,构建法律大模型应该包含法律程序如何运作的领域知识。
在法律垂直领域大模型的开发研究上,LEGAL-BERT(2020)对下游任务进行广泛的超参数搜索空间微调,以支持法律自然语言处理研究和法律技术应用的进一步发展。LawGPT(2023)针对法律领域进行微调,以对话方式为用户提供法律援助,能够实现法律问题解答、法律文件生成以及法律建议提供等任务。由于法律领域数据质量的重要性,ChatLaw(2023)针对大模型的幻觉问题,设计了领域微调数据集,并引入了向量库检索与关键词检索相结合的方法,有效降低单纯依靠向量库检索的不准确性。Lawyer LlaMA(2023)利用原始法律数据集,根据法律法规和司法解释构建的数据以及爬取的真实法律咨询数据对ChatLaw进行微调,构架法律领域大模型。
3.4 古籍领域
综述古籍领域研究有助于探索AI技术在文化遗产保护与传承中的作用,进一步推动传统文化的数字化与现代化应用。古籍垂直领域大模型的研究主要包括命名实体识别、自动摘要、词性标注、分词以及相应功能测试评估等等,为深入挖掘和传承古籍文化提供了强有力的技术支持和新的研究途径。在命名实体识别方面,以触发词和关系词作为关键特征词,构建Bert-BiLSTM-MHA-CRF模型,实现对古籍文本深层次、细粒度的命名实体识别。古籍自动摘要方面,SikuBERT在抽取式摘要任务中展现了较强的古文的语义表征和理解能力,通过小样本数据集微调GPT-3.5-turbo和ChatGLM3模型能有效提升摘要生成能力。词性标注和分词方面,荀子系列模型在古籍文本词性标注和分词任务上性能表现优越,尤其是在微调数据量达到5000时,Xunzi-Baichuan2-7B模型表现出了最优性能。另外, SikuBERT与SikuRoBERTa模型对古籍自动分词、实体识别、自动标注、自动分类、自动摘要、自动标点、词汇抽取等方面进行了广泛测试评估,研究表明,SikuBERT与SikuRoBERTa模型在古文信息处理上表现出良好的适用性和效果。
古籍垂直领域大模型的开发研究主要集中于国内。SikuBERT与SikuRoBERTa(2022)基于BERT模型框架,利用《四库全书》全文作为无监督训练集,构建面向古文智能处理任务的预训练语言模型,具有较高的古文词法、句法、语境学习能力和泛化能力。SikuGPT系列模型(2023)基于CLM使用繁体《四库全书》无标点语料、繁体中文古诗词语料在gpt2-chinese-cluecorpussmall上继续预训练,模型表现优异。Huang-Di大模型(2024)基于LlaMA架构继续预训练和有监督微调,并通过DPO优化训练流程,构建中医古籍生成式对话大语言模型,实现古籍知识解答、中医问诊、养生保健等多元化的知识服务。
3.5 其他领域
垂直领域大模型的开发研究还在地球科学、可再生能源、海洋科学、食品检测、植物学、地质学、军事等多个领域取得突破。K2通过构建GeoSignal数据集对LLaMA-7B模型进行微调,推出了首个地球科学领域大模型。HouYi从Web of Science搜索得到1168970篇学术文献的标题和摘要构建REAP数据集,对大模型进行微调,开发了首个可再生能源大模型。OceanGPT利用自动获取海洋域指令数据框架DoInstruct构建首个海洋领域大模型,表现了较高水平的海洋科学任务知识专长。FoodGPT引入了增量预训练步骤和知识图谱,将未经训练的结构化知识注入到大模型中,构建食品检测领域大模型。PLLaMa通过包含超过 150 万篇植物科学学术论文微调,极大地增强了模型在植物学和农业科学方面的丰富知识和专业熟练程度。
4 结语与展望
当前垂直领域大模型快速发展,具有广阔前景,但也面临诸多挑战,通过以上研究工作总结,从技术发展、行业应用、产业转型三个方面对垂直领域大模型进行未来前景展望。
(1)技术发展前景:专业化和轻量化是垂直领域大模型未来的发展方向。随着技术的进步和行业需求的变化,人们与大模型的交互将不仅仅停留在“会话聊天”上,行业领域个性化任务解决方案的需求日益增加,而专业和精准地处理复杂行业任务是垂直领域大模型的核心优势。专业化能够以更高的效率提供解决方案,轻量化设计则能以更少的资源消耗保证任务的完成。因此,垂直领域大模型的专业化和轻量化发展是技术进步的必然趋势,也是市场需求发展的必然要求。
(2)行业应用前景:国内外大模型的发展仍存在差距,垂直领域大模型核心竞争力在于应用。在模型的原始创新和核心算法开发方面,国内大模型发展与国际先进水平相比仍存在一定的技术积累差距。从硬件算力层面来看,由于某些方面技术封锁的现实影响,我国短时间内面临的算力不足的挑战仍将存在,进一步加大了国内大模型发展的困难,仍需更多高水平机构和人才的持续投入。国内大模型发展的核心竞争力在于垂直领域大模型的行业应用转化,我国拥有着广阔的大模型行业市场空间,垂直领域大模型的行业应用有着显著的增长空间。另一方面,为加快垂直领域大模型的应用转化,应积极给予垂直领域大模型行业应用政策支持和激励措施,以促进垂直领域大模型技术的快速应用转化。
(3)产业转型前景:垂直领域大模型的发展将推动产业由数字化向智能化转型。垂直领域大模型的发展是产业智能化转型的重要推动力。在专业化程度上,垂直领域大模型能够处理行业领域中的复杂数据,实现任务的精准预测和推荐,为行业应用的发展带来质的飞跃。在任务处理效率上,垂直领域大模型通过自动化数据分析和加速决策过程,显著提升了行业应用的操作效率,从而推动了整体产业的智能化水平。在产业创新上,垂直领域大模型促进了新的商业模式的开发,为产业创新开辟了新的增长点。因此,垂直领域大模型的发展不仅增强了行业的核心竞争力,也推动了产业由数字化向智能化转型。
数据隐私、可解释性和幻觉问题仍是垂直领域大模型行业应用的挑战。在垂直领域大模型训练过程中,数据隐私问题尤为重要,敏感信息的处理不仅关系到法律法规的遵守,而且涉及到行业安全的维护,处理不当可能引发一系列行业安全问题,导致重大经济损失。大模型的复杂性被视为“黑盒”,这对于人类来说难以直观理解和解释,在法律、金融、医疗等高风险领域需要高度的准确性和可靠性,模型决策的不透明产生的问题尤其严重。模型的不可解释导致决策难以被监督和追踪,造成用户对垂直领域大模型的不信任与偏见。幻觉问题即大模型的无充分证据的情况下产生错误输出,这对于依赖模型决策的行业来说可能带来严重的后果。鉴于以上分析,上述垂直领域大模型的机遇与挑战值得研究者关注和进一步研究。
参考文献
[1] KONDRAK G. N-gram similarity and distance[c]//international symposium on string processing and information retrieval. Berlin, heidelberg: springer berlin heidelberg, 2005: 115-126.
[2] BEBIS G, GEORGIOPOULOS M. Feed-forward neural networks[j]. Ieee potentials, 1994, 13(4): 27-31.
[3] MIKOLOV T, KARAFIÁT M, BURGET L, et al. Recurrent neural network based language model[c]//interspeech. 2010, 2(3): 1045-1048.
[4] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[j]. Neural computation, 1997, 9(8): 1735-1780.
[5] CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al. Learning phrase representations using rnn encoder-decoder for statistical machine translation[j]. Arxiv preprint arxiv:1406.1078, 2014.
[6] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[j]. Arxiv preprint arxiv:1301.3781, 2013.
[7] PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation[c]//proceedings of the 2014 conference on empirical methods in natural language processing (emnlp). 2014: 1532-1543.
[8] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[j]. Advances in neural information processing systems, 2017, 30.
[9] DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[j]. Arxiv preprint arxiv:1810.04805, 2018.
[10] LIU Y, OTT M, GOYAL N, et al. Roberta: a robustly optimized bert pretraining approach[j]. Arxiv preprint arxiv:1907.11692, 2019.
[11] LAN Z, CHEN M, GOODMAN S, et al. Albert: a lite bert for self-supervised learning of language representations[j]. Arxiv preprint arxiv:1909.11942, 2019.
[12] ZHANG Z, HAN X, LIU Z, et al. Ernie: enhanced language representation with informative entities[j]. Arxiv preprint arxiv:1905.07129, 2019.
[13] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[j]. 2018.
[14] ACHIAM J, ADLER S, AGARWAL S, et al. Gpt-4 technical report[j]. Arxiv preprint arxiv:2303.08774, 2023.
[15] OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback[j]. Advances in neural information processing systems, 2022, 35: 27730-27744.
[16] ZIEGLER D M, STIENNON N, WU J, et al. Fine-tuning language models from human preferences[j]. Arxiv preprint arxiv:1909.08593, 2019.
[17] RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[j]. Journal of machine learning research, 2020, 21(140): 1-67.
[18] XUE L, CONSTANT N, ROBERTS A, et al. Mt5: a massively multilingual pre-trained text-to-text transformer[j]. Arxiv preprint arxiv:2010.11934, 2020.
[19] CHOWDHERY A, NARANG S, DEVLIN J, et al. Palm: scaling language modeling with pathways[j]. Journal of machine learning research, 2023, 24(240): 1-113.
[20] ANIL R, DAI A M, FIRAT O, et al. Palm 2 technical report[j]. Arxiv preprint arxiv:2305.10403, 2023.
[21] ZIEGLER D M, STIENNON N, WU J, et al. Fine-tuning language models from human preferences[j]. Arxiv preprint arxiv:1909.08593, 2019.
[22] CHUNG H W, HOU L, LONGPRE S, et al. Scaling instruction-finetuned language models[j]. Journal of machine learning research, 2024, 25(70): 1-53.
[23] ZHANG S, ROLLER S, GOYAL N, et al. Opt: open pre-trained transformer language models[j]. Arxiv preprint arxiv:2205.01068, 2022.
[24] TOUVRON H, LAVRIL T, IZACARD G, et al. Llama: open and efficient foundation language models[j]. Arxiv preprint arxiv:2302.13971, 2023.
[25] IYER S, LIN X V, PASUNURU R, et al. Opt-iml: scaling language model instruction meta learning through the lens of generalization[j]. Arxiv preprint arxiv:2212.12017, 2022.
[26] COSTA-JUSSÀ M R, CROSS J, ÇELEBI O, et al. No language left behind: scaling human-centered machine translation[j]. Arxiv preprint arxiv:2207.04672, 2022.
[27] TAYLOR R, KARDAS M, CUCURULL G, et al. Galactica: a large language model for science[j]. Arxiv preprint arxiv:2211.09085, 2022.
[28] TOUVRON H, MARTIN L, STONE K, et al. Llama 2: open foundation and fine-tuned chat models[j]. Arxiv preprint arxiv:2307.09288, 2023.
[29] META A I. Introducing meta llama 3: the most capable openly available llm to date[j]. Meta ai., 2024.
[30] WANG S, SUN Y, XIANG Y, et al. Ernie 3.0 titan: exploring larger-scale knowledge enhanced pre-training for language understanding and generation[j]. Arxiv preprint arxiv:2112.12731, 2021.
[31] REN X, ZHOU P, MENG X, et al. Pangu-{\sigma}: towards trillion parameter language model with sparse heterogeneous computing[j]. Arxiv preprint arxiv:2303.10845, 2023.
[32] WU S, IRSOY O, LU S, et al. Bloomberggpt: a large language model for finance[j]. Arxiv preprint arxiv:2303.17564, 2023.
[33] ZHAO X, LU J, DENG C, et al. Domain specialization as the key to make large language models disruptive: a comprehensive survey[j]. Arxiv preprint arxiv:2305.18703, 2023.
[34] DING N, QIN Y, YANG G, et al. Parameter-efficient fine-tuning of large-scale pre-trained language models[j]. Nature machine intelligence, 2023, 5(3): 220-235.
[35] DONG Q, LI L, DAI D, et al. A survey on in-context learning[j]. Arxiv preprint arxiv:2301.00234, 2022.
[36] GAO Y, XIONG Y, GAO X, et al. Retrieval-augmented generation for large language models: a survey[j]. Arxiv preprint arxiv:2312.10997, 2023.
[37] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[c]//proceedings of the ieee conference on computer vision and pattern recognition. 2016: 770-778.
[38] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale[j]. Arxiv preprint arxiv:2010.11929, 2020.
[39] TAN M, LE Q. Efficientnetv2: smaller models and faster training[c]//international conference on machine learning. Pmlr, 2021: 10096-10106.
[40] LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[c]//proceedings of the ieee/cvf international conference on computer vision. 2021: 10012-10022.
[41] HANNUN A, CASE C, CASPER J, et al. Deep speech: scaling up end-to-end speech recognition[j]. Arxiv preprint arxiv:1412.5567, 2014.
[42] OORD A, DIELEMAN S, ZEN H, et al. Wavenet: a generative model for raw audio[j]. Arxiv preprint arxiv:1609.03499, 2016.
[43] WANG M, XING J, LIU Y. Actionclip: a new paradigm for video action recognition[j]. Arxiv preprint arxiv:2109.08472, 2021.
[44] LI J, LI D, SAVARESE S, et al. Blip-2: bootstrapping language-image pre-training with frozen image encoders and large language models[c]//international conference on machine learning. Pmlr, 2023: 19730-19742.
[45] ALAYRAC J B, DONAHUE J, LUC P, et al. Flamingo: a visual language model for few-shot learning[j]. Advances in neural information processing systems, 2022, 35: 23716-23736.
[46] JIA C, YANG Y, XIA Y, et al. Scaling up visual and vision-language representation learning with noisy text supervision[c]//international conference on machine learning. Pmlr, 2021: 4904-4916.
[47] LIU Y, ZHANG K, LI Y, et al. Sora: a review on background, technology, limitations, and opportunities of large vision models[j]. Arxiv preprint arxiv:2402.17177, 2024.
[48] NAUMOV M, MUDIGERE D, SHI H J M, et al. Deep learning recommendation model for personalization and recommendation systems[j]. Arxiv preprint arxiv:1906.00091, 2019.
[49] FENG Z, GUO D, TANG D, et al. Codebert: a pre-trained model for programming and natural languages[j]. Arxiv preprint arxiv:2002.08155, 2020.
[50] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[j]. Nature, 2016, 529(7587): 484-489.
[51] ROSS J, BELGODERE B, CHENTHAMARAKSHAN V, et al. Large-scale chemical language representations capture molecular structure and properties[j]. Nature machine intelligence, 2022, 4(12): 1256-1264.
[52] PAL S, BHATTACHARYA M, LEE S S, et al. A domain-specific next-generation large language model (llm) or chatgpt is required for biomedical engineering and research[j]. Annals of biomedical engineering, 2024, 52(3): 451-454.
[53] RAO A, KIM J, KAMINENI M, et al. Evaluating chatgpt as an adjunct for radiologic decision-making[j]. Medrxiv, 2023: 2023.02. 02.23285399.
[54] JEBLICK K, SCHACHTNER B, DEXL J, et al. Chatgpt makes medicine easy to swallow: an exploratory case study on simplified radiology reports[j]. European radiology, 2023: 1-9.
[55] 牛福莲 , 安孟瑶 , 王强 , 王少程 . 从诊室到云端:医疗大模型的应用挑战与未来探索[J]. 中国发展观察, 2024, (01): 77-85.
[56] 夏光辉, 曹艳林, 陈炳澍, 查滨. 大模型人工智能技术在医疗服务领域应用的专家共识[J]. 中国卫生法制, 2023, 31 (05): 124-126.
[57] HUANG K, ALTOSAAR J, RANGANATH R. Clinicalbert: modeling clinical notes and predicting hospital readmission[j]. Arxiv preprint arxiv:1904.05342, 2019.
[58] LEE J, YOON W, KIM S, et al. Biobert: a pre-trained biomedical language representation model for biomedical text mining[j]. Bioinformatics, 2020, 36(4): 1234-1240.
[59] LUO R, SUN L, XIA Y, et al. Biogpt: generative pre-trained transformer for biomedical text generation and mining[j]. Briefings in bioinformatics, 2022, 23(6): bbac409.
[60] GUAN Z, WU Z, LIU Z, et al. Cohortgpt: an enhanced gpt for participant recruitment in clinical study[j]. Arxiv preprint arxiv:2307.11346, 2023.
[61] LI Y, LI Z, ZHANG K, et al. Chatdoctor: a medical chat model fine-tuned on a large language model meta-ai (llama) using medical domain knowledge[j]. Cureus, 2023, 15(6).
[62] LIU Z, HUANG Y, YU X, et al. Deid-gpt: zero-shot medical text de-identification by gpt-4[j]. Arxiv preprint arxiv:2303.11032, 2023.
[63] ZHANG H, CHEN J, JIANG F, et al. Huatuogpt, towards taming language model to be a doctor[j]. Arxiv preprint arxiv:2305.15075, 2023.
[64] XIONG H, WANG S, ZHU Y, et al. Doctorglm: fine-tuning your chinese doctor is not a herculean task[j]. Arxiv preprint arxiv:2304.01097, 2023.
[65] YANG S, ZHAO H, ZHU S, et al. Zhongjing: enhancing the chinese medical capabilities of large language model through expert feedback and real-world multi-turn dialogue[c]//proceedings of the aaai conference on artificial intelligence. 2024, 38(17): 19368-19376.
[66] LEIPPOLD M. Sentiment spin: attacking financial sentiment with gpt-3[j]. Finance research letters, 2023, 55: 103957.
[67] LOPEZ-LIRA A, TANG Y. Can chatgpt forecast stock price movements? Return predictability and large language models[j]. Arxiv preprint arxiv:2304.07619, 2023.
[68] SUZUKI M, SAKAJI H, HIRANO M, et al. Constructing and analyzing domain-specific language model for financial text mining[j]. Information processing & management, 2023, 60(2): 103194.
[69] 赵瑞兰. 数字人与大模型在风控领域的融合创新应用[J]. 银行家, 2023, (12): 106-108.
[70] 田挺. 通用语言大模型技术在审计领域应用场景探索[J]. 审计月刊, 2023, (12): 16-20.
[71] YANG Y, UY M C S, HUANG A. Finbert: a pretrained language model for financial communications[j]. Arxiv preprint arxiv:2006.08097, 2020.
[72] WANG Z, LI Y, WU J, et al. Finvis-gpt: a multimodal large language model for financial chart analysis[j]. Arxiv preprint arxiv:2308.01430, 2023.
[73] LI J, BIAN Y, WANG G, et al. Cfgpt: chinese financial assistant with large language model[j]. Arxiv preprint arxiv:2309.10654, 2023.
[74] ZHANG X, YANG Q. Xuanyuan 2.0: a large chinese financial chat model with hundreds of billions parameters[c]//proceedings of the 32nd acm international conference on information and knowledge management. 2023: 4435-4439.
[75] LI Y, MA S, WANG X, et al. Ecomgpt: instruction-tuning large language models with chain-of-task tasks for e-commerce[c]//proceedings of the aaai conference on artificial intelligence. 2024, 38(17): 18582-18590.
[76] XUE Z, LI L, TIAN S, et al. Domain knowledge is all you need: a field deployment of llm-powered test case generation in fintech domain[c]//proceedings of the 2024 ieee/acm 46th international conference on software engineering: companion proceedings. 2024: 314-315.
[77] SAVELKA J, ASHLEY K D, GRAY M A, et al. Explaining legal concepts with augmented large language models (gpt-4)[j]. Arxiv preprint arxiv:2306.09525, 2023.
[78] PRASAD N, BOUGHANEM M, DKAKI T. Effect of hierarchical domain-specific language models and attention in the classification of decisions for legal cases[c]//circle. 2022.
[79] WU Y, ZHOU S, LIU Y, et al. Precedent-enhanced legal judgment prediction with llm and domain-model collaboration[j]. Arxiv preprint arxiv:2310.09241, 2023.
[80] VALVODA J, COTTERELL R, TEUFEL S. On the role of negative precedent in legal outcome prediction[j]. Transactions of the association for computational linguistics, 2023, 11: 34-48.
[81] CHALKIDIS I, FERGADIOTIS M, MALAKASIOTIS P, et al. Legal-bert: the muppets straight out of law school[j]. Arxiv preprint arxiv:2010.02559, 2020.
[82] Nguyen H T. A brief report on lawgpt 1.0: a virtual legal assistant based on gpt-3[j]. Arxiv preprint arxiv:2302.05729, 2023.
[83] CUI J, LI Z, YAN Y, et al. Chatlaw: open-source legal large language model with integrated external knowledge bases[j]. Arxiv preprint arxiv:2306.16092, 2023.
[84] HUANG Q, TAO M, AN Z, et al. Lawyer llama technical report[j]. Arxiv preprint arxiv:2305.15062, 2023.
[85] 武帅, 杨秀璋, 何琳, 公佐权. 基于句法特征和Bert-BiLSTM-MHA-CRF的细粒度古籍实体识别研究[J]. 数据分析与知识发现.
[86] 吴娜, 刘畅, 刘江峰, 王东波. AIGC驱动古籍自动摘要研究:从自然语言理解到生成[J]. 图书馆论坛.
[87] 朱丹浩, 赵志枭, 胡蝶, 赵文华, 孙光耀, 王东波. 领域大语言模型下的古籍词性标注应用研究[J]. 科技情报研究, 2024, 6 (02): 21-29.
[88] 朱丹浩, 赵志枭, 吴娜, 王希羽, 孙光耀, 王东波. 基于领域大语言模型的古籍分词研究[J]. 科技情报研究, 2024, 6 (02): 11-20.
[89] 刘畅, 王东波, 胡昊天, 张逸勤, 李斌. 面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例[J]. 图书馆论坛, 2022, 42 (06): 44-54.
[90] 刘江峰, 冯钰童, 王东波, 胡昊天, 张逸勤. 数字人文视域下SikuBERT增强的史籍实体识别研究[J]. 图书馆论坛, 2022, 42 (10): 61-72.
[91] 耿云冬, 张逸勤, 刘欢, 王东波. 面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J]. 图书馆论坛, 2022, 42 (06): 55-63.
[92 胡昊天, 张逸勤, 邓三鸿, 王东波, 冯敏萱, 刘浏, 李斌. 面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例[J]. 图书馆论坛, 2022, 42 (12): 138-148.
[93] 徐润华, 王东波, 刘欢, 梁媛, 陈康. 面向古籍数字人文的《资治通鉴》自动摘要研究——以SikuBERT预训练模型为例[J]. 图书馆论坛, 2022, 42 (12): 129-137.
[94] 赵连振, 张逸勤, 刘江峰, 王东波, 冯敏萱, 李斌. 面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例[J]. 图书馆论坛, 2022, 42 (12): 120-128+137.
[95] 孙文龙, 张逸勤, 王凡铭, 鱼汇沐, 刘江峰, 王东波. 面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例[J]. 图书馆论坛, 2022, 42 (10): 31-41.
[96] 王东波, 刘畅, 朱子赫, 刘江峰, 胡昊天, 沈思, 李斌. SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J]. 图书馆论坛, 2022, 42 (06): 31-43.
[97] 刘江峰, 刘雏菲, 齐月, 刘浏, 李斌, 刘畅, 王东波. AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究[J]. 情报理论与实践, 2023, 46 (05): 23-31.
[98] 张君冬,杨松桦,刘江峰,等.AIGC赋能中医古籍活化:Huang-Di大模型的构建[J].图书馆论坛,2024.
[99] DENG C, ZHANG T, HE Z, et al. Learning a foundation language model for geoscience knowledge understanding and utilization[j]. Arxiv preprint arxiv:2306.05064, 2023.
[100] BAI M, ZHOU Z, WANG R, et al. Houyi: an open-source large language model specially designed for renewable energy and carbon neutrality field[j]. Arxiv preprint arxiv:2308.01414, 2023.
[101] BI Z, ZHANG N, XUE Y, et al. Oceangpt: a large language model for ocean science tasks[j]. Arxiv preprint arxiv:2310.02031, 2023.

京公网安备 11011302003690号