多模态AI大模型在5G新通话中的创新应用探索—视频彩铃

龙克树廖森林李雨珂余泽敏

中国移动通信集团贵州有限公司亚信科技中国有限公司 550000

打开文本图片集

摘要：随着5G技术的商用网络全面普及，视频彩铃作为5G新通话业务的关键一环，迎来了崭新的发展契机。本文基于国内视频彩铃产业的当前态势，探究多模态AI大模型在该领域的创新应用，并着重阐述了这一技术在内容生成、营销传播以及智能推荐三大领域的核心价值，助力视频彩铃产业“AI+全民化”发展。

关键词：视频彩铃多模型AI大模型 AI+全民化内容创作

一、引言

随着全球数字消费兴起，视频彩铃作为面向庞大客户群体的新兴数字增值服务，蕴藏着巨大的市场潜力。文中结合国内运营商视频彩铃产业发展现状，聚焦内容生态不够丰富、市场渗透率不够高等挑战，提出以多模态AI大模型技术为破局关键，以“内容丰富化、推广多样化、使用日常化、受益普遍化”为突破点，打造视频彩铃原创基地，拉通内容创作生态与传播渠道，提升智能推荐精准率，并完善合作收益模式，惠及广大用户群体，推动视频彩铃成为“AI+全民化”产业。

二、视频彩铃产业发展态势

在全球数字化转型的浪潮中，随着2019年AI大语言模型的广泛应用，照亮了文生图、文生视频、文生音乐等创意生成技术的快速发展之路，市场上如Sora、Suno、Midjourne、Stable Diffusion、可灵等明星应用应运而生，仅2023年一年就公开了21个AI视频生成产品，目前全球AI大模型共计1328个[1]。然而，以上产品在直接触达广大消费者（ToC）及企业客户（ToB）层面时，未能实现规模化的价值变现。面对这一现状，国内运营商的视频彩铃业务长期以来因视频内容单一、创作门槛高、推广渠道受限、推送不准等问题并未得到有效推广。

三、融合应用多模态技术助力视频彩铃AI+全民化发展

（一）融合5G与多模态技术，打造“AI+视频彩铃”原创基地

随着5G技术和AI技术的不断融合与创新应用，AI音视频的创作门槛低、内容丰富、生成视频短等特点，可完美贴合5G视频彩铃场景，为用户提供更加个性化、智能化的视频彩铃服务体验。运营商可依托自身客户规模大、网络能力强、算力和数据资源丰富的绝对优势建设AIGC视频彩铃创作基地。引入多模态AI生成模型和跨模态对齐技术[2]，提取并融合文本、音频和视频的数据特征，并利用全连接层对拼接对齐后的特征进行融合处理，生成一个综合的多模态特征表示，实现文本、图像、音频等元素无缝融合与灵活转化，拓宽创意边界。同时，利用AI降低创作门槛提供多元化创作空间，赋能用户创作AI+Vlog、美食、影视、广告等领域视频彩铃，提升用户创作热情与效率，保障平台涵盖更广泛的主题和风格，为通信领域的发展注入新的活力与动力。

（二）应用“一键赋能”技术，打造内容创作生态圈与传播渠道

全面赋能互联网平台“一键式操作”功能，为其提供全方位、一体化的解决方案，强化资源的整合利用，构建开放共赢的合作生态。应用RESTful API接口技术、多模态AI及大数据等技术打通各渠道及平台跨越式操作，赋能互联网平台一键创作、一键设置、一键分享等功能，灵活提供创作工具、账号互通等服务，实现平台间场景融通无隙衔接，充分利用互联网强大的流量入口和用户粘性等资源促进内容创作的自由流动与高效传播。

（三）融合数据与多模态技术，打造“一屏万象”智能推荐能力

用户的参与度和满意度是视频彩铃实现价值长期稳定的关键。通过多模态技术整合分析各平台用户偏好数据及运营商特有的用户标签与位置信息数据，构建“偏好+标签+位置”的核心数据资产和应用侧反馈机制，描绘出更加立体、全面、精准的用户画像，打造“一屏万象”的智能精准推荐能力。实现快速识别预测用户喜好与行为习惯，并捕捉用户所处的环境与心境，为每位用户精准推送量身定制的广告内容。例如，对于C端用户，能“接收到”与自己兴趣高度契合的视频彩铃，同时支持用户动态化选择或调整广告内容；针对B端用户，结合用户画像、节假日等特殊时间针对性投放广告，将商业与公益广告展现在亿万用户的屏幕上，实现深度互动与情感共鸣，增强其适配性和传播度，提升投放效果。

此外，通过完善合作收益模式促进视频彩铃业务价值链焕发新生，实现角色之间的共赢共生。其中，AI模型商以提供技术服务收取运营商服务费，互联网平台商以提供内容创作及彩铃推广收取运营商服务费。运营商则以向AI模型商提供算力与算网资源获取收益，向C端用户推出彩铃服务获取用户订阅收益，向B端用户开放视频彩铃广告收取服务费。而C端用户以出租视频彩铃“闲置广告位”收取运营商租赁费，B端用户通过投放广告，覆盖目标受众，直接获得广告投放带来的经济回报。通过搭建一个充满创造力与活力的生态系统，实现各方利益的最大化与共赢发展。

四、视频彩铃产业发展结论

视频彩铃产业历经四个春秋的发展，虽已进入高速发展的轨道，但仍处于成长的关键时期，亟需探索以技术革新为驱动力的破局之道来应对发展挑战。可通过以算力、网络为基石，大数据为纽带，依托多模态AI等技术打造集创作、展示、交易与广告推广于一体的综合性视频彩铃生态圈，构建核心应用场景，实现商业价值长期稳定，推动视频彩铃产业AI+全民化发展，并与大数据、算力网络之间形成双向驱动力，促进循环增长。

一是依托跨模态融合技术构建视频彩铃原创孵化基地，贯通内容创作全链条，提升创作效率与质量，实现创作内容的多元化拓展。通过整合海量数据与先进的深度学习算法，支持自动生成新颖内容，智能匹配创意素材，并提供AI辅助剪辑工具，降低创作门槛，点燃创作热情。此外，在B端广告创作领域，支持客户自主上传广告，或根据创作者提供的素材及要求结合行业趋势、用户偏好等信息自动生成定制化广告，成功构建一个多元化、高效能的内容生态系统。

二是结合多模态智能分析技术构建高效精准的传播渠道，打造“一屏万象”的智能推荐能力促进内容自传播，并积累形成用户画像核心数据资产。通过多模态AI融合分析数据，精准捕捉用户行为兴趣偏好，智能匹配媒体、平台等渠道推送广告。同时，结合情感分析技术将视频彩铃融入通讯场景，并根据来电者身份、情绪及环境等自动调整风格与内容，增强用户体验的趣味性、互动性与传递性，实现全面覆盖与深度传播，助力视频彩铃全民化发展。

参考文献

[1]中国日报网.中国人工智能大模型数量全球占比36%

[EB/OL].https：//mp.weixin.qq.com/s/4kucT3ZaL1Mf0IIfhNWRoA

[2]国际高新技术研究院.多模态AI产业链全景梳理[EB/OL].https：//mp.weixin.qq.com/s/9aHM6s9a9vQ-psMxrSl1xQ

*本文暂不支持打印功能