大语言模型在推荐系统中的应用综述

近期，大语言模型（Large Language Models, LLMs）已成为自然语言处理（NLP）领域中最令人瞩目的技术，其在各种AI应用中所展现的强大功能不断验证了这种模型的潜力与价值。特别是以“ChatGPT”为代表的大语言模型对话系统，其卓越的人机对话能力和推理能力，无疑在AI研究社区掀起了一场颠覆性的革命，对人们的日常生活和工作模型产生了深远影响。大语言模型的持续创新与进步开启了其在各种AI应用中的无限可能性，在这一趋势下，作为AI应用领域的翘楚之一，推荐系统（Recommender System, RS）与大语言模型的深度结合引发了学术界与工业界的高度关注与期待。

鉴于此背景，BOSS直聘职业科学实验室（CSL）携手中国科学技术大学和香港科技大学（广州），经过广泛调研，对大语言模型在推荐系统中的应用总结了一个初步的研究综述。该综述涵盖了该领域最新的研究进展和技术路径，旨在全面了解基于LLM的推荐系统，并提出了一个全新的分类体系，将这些模型分为两个主要范式：基于判别式大语言模型的推荐系统（DLLM4Rec）和基于生成式大语言模型的推荐系统（GLLM4Rec）。在这篇综述中，作者特别关注了基于生成式大语言模型的推荐系统，并对这一范式内容进行了系统性的梳理，进一步总结了该领域的重要发现与挑战。该综述现已以预印版的形式上传到arXiv网站，意在为研究人员和工程师们提供技术参考。

论文链接：

https://arxiv.org/abs/2305.19860

GitHub链接：

https://github.com/WLiK/LLM4Rec

基于大模型的推荐系统

图1 基于大语言模型的推荐系统建模范式

如图1所示，目前已有的基于大语言模型的推荐系统相关研究主要可以分成以下三个建模范式：

1） LLM Embedding + RS：该范式将大语言模型视为特征提取器，将用户与物品的特征输入大语言模型，得到其对应的表征，并以向量的形式支撑推荐任务。

2） LLM Tokens + RS：该范式与上一范式类似，将用户与物品的特征输入大语言模型，通过文本的形式，得到富含语义的描述，并将此类描述用于推荐任务。

3） LLM as RS：该范式直接将大语言模型视为一个推荐系统，将用户的行为、物品的信息等输入大模型，并由大语言模型直接提供推荐结果。

图2 基于大语言模型的推荐系统分类方法

在实际应用中，大语言模型类型的选择会极大地影响推荐系统的建模方法。如图2所示，本文将已有的基于大语言模型的推荐系统分成两个大类，分别是基于判别式大语言模型的推荐系统和基于生成式大语言模型的推荐系统。此外，如图2所示，根据其训练范式，以上每一种大类又可以进行进一步的细分，其中每种训练范式的含义如图3所示。图4给出了一些基于大语言模型的推荐系统代表性工作。

图3 不同训练范式的解释

图4 基于大语言模型的推荐系统代表性工作

问题、挑战与发现

模型中的偏差问题

在基于生成式大语言模型的推荐系统的建模范式中，用户行为序列和推荐候选项等信息以文本的形式输入到生成式大语言模型中，这会导致引入一些典型的位置偏差（position bias）问题。例如，候选项的顺序会影响模型的排序推理，即模型通常会优先考虑顶部顺序的物品。而且模型通常不能很好地捕捉行为序列的顺序。目前已有工作利用基于随机采样的方式来减轻候选项的位置偏差，并强调最近交互的物品以增强行为顺序。然而，这些解决方案的适应性还有优化的空间，未来需要更加稳健的学习策略。此外，由于语言模型训练的语料本身存在有偏性，因此公平性偏差fairness bias，文本流行度偏差也会影响推荐结果。

提示（Prompt）设计

设计合适的提示文本能够让生成式大语言模型理解用户输入意图并给出对应输出。在实践中，传统的推荐系统能够利用大量的离散和连续特征来表示用户和物品。然而，现有的大语言模型工作大多只使用名称文本构建prompt表示物品、用户和意图等，这对于准确建模是不足够的。此外，将用户的异构行为序列（例如电子商务领域中的点击、加入购物车和购买等）转化为自然语言进行偏好建模是至关重要的。传统推荐模型已经证明了类似ID特征在其中的有效性，但将它们结合到提示中提高个性化推荐效果也是有挑战性的。

大模型能力

现有的研究已经揭示了大语言模型在各种推荐任务中所展现出的令人印象深刻的零/少样本推理能力。值得注意的是，少样本学习相当于在上下文中进行学习，不会大幅度改变大语言模型的参数。这意味着大语言模型具备借助有限数据缓解冷启动问题的潜力。因此，搭配上生成式大语言模型展现出卓越的自然语言生成能力，通过文本生成方式利用大语言模型进行可解释的推荐是一个十分有潜力的方向。

模型评估

目前，基于大语言模型的推荐系统在评估方面存在着一些挑战。首先，大语言模型的输出不易控制，例如，尽管在指令微调的过程中严格给定了输入与输出的文本格式，大语言模型仍然可能输出不符合格式的答案。此外，对于一些基于生成式大语言模型的推荐系统而言，因其生成结果没有明确的正确答案，如何选择合适的评价指标也是一个巨大的挑战。最后，目前的已有工作主要在MovieLens等数据集上测试模型的性能，相比于真实工业场景数据集，此类数据集的规模较小，无法真实反映基于生成式的大语言模型的推荐能力。且此类数据集中的物品所对应的一些语义知识可能被大语言模型的预训练数据覆盖，这为我们评估大语言模型的零/少样本学习能力带来了类似数据泄露的干扰。因此，如何挑选合适的数据集评价大语言模型的推荐能力仍存在挑战。

总结

本综述系统回顾了基于大语言模型的推荐系统相关研究的最新进展，并重点关注基于生成式大语言模型的推荐系统相关工作。我们介绍了核心概念和相关技术，并总结了该领域目前面临的若干挑战和未来可能的研究趋势。在此篇综述的调研与撰写过程中，我们努力确保了其客观性和全面性，但仍难免可能存在部分表述不准确或讨论不足，或可能遗漏了部分参考文献。因此，我们诚挚邀请读者提供宝贵的意见，帮助我们不断完善这篇综述文章。

责任编辑：吴李康、郑值、邱昭鹏、胡骁

专家顾问：常濛

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证