近日,在中文语义向量评测基准——C-MTEB检索榜单竞赛中,联想研究院车计算实验室车智能团队凭借其创新的、以大模型为基座的文本向量化技术——Zhihui_LLM_embedding,一举夺冠,展示了联想在人工智能领域的技术实力。
C-MTEB被公认为是目前业界最全面、最权威的中文语义向量评测基准之一。
该榜单囊括了检索、分类、聚类、排序、文本相似度、语义文本相似度(STS)等六个经典任务,涵盖了35个数据集,专门设计用于深入评估中文语义向量的全面性和可靠性。
特别是在检索任务上,包括了多个场景,触达搜索、医疗、电商等多个文本领域。
因此,不仅考验模型在处理中文文本方面的准确性,还测试其效率、稳定性和可扩展性,确保评估标准的全面性和严格性。
C-MTEB榜单的高技术难度、高实际应用性,备受众多顶尖科研机构、科技公司和专业团队的广泛关注。
参与的队伍众多,竞赛环境激烈,包括阿里、腾讯、商汤等在内的众多机构都参与了该竞赛。
文本向量化、RAG技术、大模型关系文本向量化是RAG(Retrieval Augmented Generation,即检索增强生成)中最关键的技术模块, 可有效提升大模型输出的精准度和答案相关度,扩展大模型的知识覆盖度和模型在新领域的适应度,有效加速大模型的企业应用落地进程。
在AI时代,我们每天都需要面对大量的数据,其中可能包含很多无用的干扰信息。
为了快速捕捉关键信息,过滤掉无关的数据,提升大模型的性能,业界通常利用RAG技术给大模型加持专业知识。
RAG技术能够从一个知识库中筛选出与用户查询最相关的知识片段,然后提供给大模型,大模型再根据该知识片段回答问题,从而提升了大模型回答质量,补充了大模型在专业领域的知识上的不足,并弥补了大模型处理文本长度的限制等。
文本向量化技术是RAG的核心算法,具体而言,是一种理解用户查询的深层含义的算法,可以助力快速、准确抓取与用户查询相匹配的文档,过滤干扰信息,帮助RAG获取到相关的文档片段内容,从而提升大模型搜索与问答的品质、速度和精准度。
如今大模型智能体作为前沿探索的焦点,通过融合大模型的语言处理能力和RAG的信息检索功能,在不断变化的环境中持续学习、有效适应各类场景需求、展现出卓越的智能决策和自主执行能力。
联想研究院此次夺冠的文本向量化算法——Zhihui_LLM_embedding大幅提升了内容筛选的准确率,有效提升了RAG的性能,从而大幅增强了大模型的表现。
创新性的双向注意力机制 提升向量表现在本次榜单竞赛中,区别于榜上众多以Bert小模型为基座的向量化模型,联想研究院自研的Zhihui_LLM_Embedding向量化模型采用了基于双向注意力机制对比学习架构和大模型基座。
该方案通过利用大模型丰富的知识储备和卓越的泛化能力,仅需少量微调即可实现更优的向量表现。
另外,通过大模型知识蒸馏技术,挖掘难负样本并调整loss中对难负样本的分布,学习不同粒度的信息,从而提高对复杂样本的区分能力。
同时,打破了传统大模型解码器单向注意力机制的局限,所研发的双向注意力机制能够模型从两个方向同时关注文本中的上文和下文,极大地丰富了文本的信息含量。
此外,通过梯度缓存技术,降低了大模型对硬件资源的重度依赖,使得在较低内存配置下也能高效进行对比学习训练。
文本向量化赋能万象座舱AI平台在4月举行的联想创新科技大会上,联想研究院发布了面向智能汽车的联想万象汽车座舱AI平台。
该平台是面向智能座舱的车载智能助手综合解决方案,融合了大模型感知理解、智能体规划决策、数字化Avatar生成与驱动等先进技术,能够有效提升座舱助手的智能化、自动化和拟人化体验。
该平台包含的智汇车载智能体引擎,能够准确理解用户意图,并自动完成包括任务规划、出行规划、信息获取、智能车控等多项长链路动作。
该智汇车载智能体通过RAG扩展智能体对车载知识的理解。
当用户询问用车相关的问题时,RAG技术能够助力大模型学习、检索车载知识库中的用车手册、保养、保险等信息,更准确地回答用户的问题。
而此次获奖的Zhihui_LLM_embedding文本向量化技术有效提升了RAG的性能和表现。
比如,如果用户在车内用语音提问:“感觉坐着不舒服,该怎么办?"借助Zhihui_LLM_embedding向量化模型,算法能够更好地理解用户意图,从知识库中的《用车手册》文档中找到《调节座椅》章节的内容,从而提供 “调节座椅前后的方法”、 “调节座椅靠背倾斜度的方法”、“调节座椅的注意事项”等专业且全面的内容,帮助用户解决实际需求,实现更好的交互体验。
联想研究院,包括车计算实验室,一直致力于大模型技术的研发和积累,以更好地赋能联想产品、服务和解决方案,更好推动行业的智能化转型。
去年,在国际文档分析与识别大会ICDAR2023的文档视觉问答(DocVQA)比赛中,车计算实验室团队创新地将大模型技术融合到了文档问答中,击败众多一流团队夺得冠军,今年,在此基础上,团队实现了进一步的技术突破,在C-MTEB榜单中再获冠军,充分展示了联想在大模型技术领域的技术积累和技术优势。