Yandex研发人员开发压缩大型语言模型新方法,将AI部署成本降低8倍

发布时间:2024年8月11日 分类:新闻资讯 浏览量:201

Yandex Research、IST Austria(奥地利科学技术研究所)、Neural Magic 和 KAUST 开发并开源了两种大型语言模型(LLM)压缩方法,即 AQLM 和 PV-Tuning。这两种方法能够将模型大小减少多达 8 倍,同时能保留 95%的响应质量。新方法大幅降低了 AI 部署的进入门槛,将设备成本降低最多 8 倍。压缩后的模型如 Llama 2 13B 可以在 1 个 GPU 上运行,而原本需要 4 个。AQLM 压缩方法已在 ICML 会议上展示,突显了 LLM 技术的重大进步。这一研究成果于 2024 年 7 月 23 日发布,地点在上海和维也纳。Yandex 推出的这两种创新压缩方法对于降低 AI 部署成本、提高模型运行效率具有重要意义,使得更多的企业和个人能够更轻松地应用大型语言模型,促进了 AI 技术的广泛应用和发展。