革命性的LLM微调方法 QLoRA 的工作原理
QLoRA 是一种微调方法,它结合了量化和低秩适配器 (LoRA),能够在相对较小的高可用 GPU 上对拥有数十亿参数的庞大模型进行微调。量化降低了模型张量的数值精度,使模型更加紧凑,操作执行速度更快。LoRA 是一种旨在通过减少可训练参数数量来更有效地微调大型预训练语言模型的方法。LoRA 通过创建和更新原始权重矩阵的低秩近似值(称为更新矩阵)来提高这一过程的效率。微调时只更新这些矩阵,因此 LoRA 的可训练参数总数等于低阶更新矩阵的大小。LoRA 的优点包括高效、专业化和保护。QLoRA 结合了量化和 LoRA,为微调大型预训练模型提供了一种开创性的方法。通过量化,它能有效压缩原始模型,而通过 LoRA,它能大幅减少可训练参数的数量。这种协同组合使微调过程民主化,使其可以在更小、更易访问的 GPU 上执行。