教人工智能个性化:奥尔多Pacchiano介绍了一种自适应大型语言模型的新方法
随着像ChatGPT这样的大型语言模型(llm)嵌入到日常生活中——从起草电子邮件到调试代码——人们越来越期望它们能够理解不同的人希望得到帮助的方式。 然而,尽管这些模型很复杂,但大多数模型对待所有用户的方式或多或少都是一样的。 This is where 奥尔多Pacchiano, Assistant Professor at 波士顿大学’s Faculty of Comput在g and Data Sciences (CDS), saw a problem worth solv在g. 他解释说:“目前的模型针对大多数人喜欢的东西进行了优化,但它们并没有真正了解你喜欢什么。”

In a 新论文 titled “Language Model Personalization via Reward Factorization,” Pacchiano and his co-authors 在troduce Personalization via Reward Factorization (PReF): a framework that personalizes LLM responses to 在dividual users without requir在g extensive retra在在g or massive datasets. PReF不是对数百万用户的偏好进行平均,而是逐渐了解用户最看重的特征,比如幽默、简洁或正式。 通过这些比较,它建立了一个个性化的档案,指导模型未来的反应,以更好地匹配个人的风格。 这种方法为gpt - 40等默认系统提供了更灵活、更有效的替代方案,并向能够更好地理解和服务每个人(而不仅仅是普通用户)的人工智能迈进。
为了测试这种轻量级个性化的效果如何,帕奇亚诺和他的团队首先在合成用户身上训练PReF,这些合成用户本质上是通过提示语言模型偏爱特定特征而创建的角色扮演个性。 每个模拟用户在几十对回答中做出选择,逐渐揭示出他们潜在的偏好。 “这是一个诡计,”他解释说,“但它很有效。 你告诉模型,‘假装你是一个喜欢这种方式的用户’,它就会生成可靠的训练数据。” 一旦PReF能够持续适应这些合成用户,团队就转向了一个更困难的基准:真实的人。 使用PRISM数据集,其中包括数千个用户档案和即时反应交互,他们测试了该模型是否仍然符合个人偏好,即使这些特征没有被清晰地标记或预先定义。 结果很有希望:只需要10到20个响应比较,PReF就可以生成真实用户比gpt - 40的标准输出更喜欢的回复。
虽然像ChatGPT这样的通用工具允许用户通过调整提示来调整语气或风格,但帕奇亚诺认为这给用户带来了太多负担。 相比之下,他认为PReF在用户不知道如何操纵模型或不经常与模型交互以学习如何操作的应用程序中特别有用。 他指出:“如果你部署的是客户支持机器人,甚至是Slack助手这样的内部工具,用户可能只会与它互动一次。” “但在这么短的时间内,这个系统仍然需要让人觉得有用、高效和直观。” 在这些环境中,PReF无需明确指示即可自动适应的能力提供了一个主要优势。 无论用户是喜欢冗长的解释还是直接的回答,是正式的语言还是随意的措辞,该模型都可以学习并相应地进行调整,即使输入最少。 这为教育、工作场所工具、医疗保健通信和其他个性化可以直接提高信任度、可用性和满意度的领域提供了更灵敏的人工智能代理。
这项工作最终提出了一个更深层次的问题:如果人工智能无处不在,它是否应该学会向我们妥协? 对帕奇诺来说,个性化是我们对人类与人工智能互动的看法的转变。 他的下一步是将这种适应性从风格和语气扩展到现实世界中的推理和决策。 他设想的系统不仅可以定制自己的语言,还可以学习如何在空间中移动,解决不熟悉的问题,并根据有限的反馈进行调整。 这听起来可能远非简单的两两比较,但原理是一样的。 如果人工智能可以从更仔细地倾听我们希望得到的回答开始,也许它也可以了解我们希望得到的帮助。
- Neeza辛格 (CDS'25), CDS澳门威尼斯人注册网站研究传播实习生