无需百卡集群!港科等开源LightGen: 极低本钱文生?
LightGen 重要作者来自喷鼻港科技年夜学跟 Everlyn AI, 第一作者为喷鼻港科技年夜学准博士生吴显峰,重要研讨偏向为天生式人工智能跟 AI4Science。通信作者为喷鼻港科技年夜学助理教学 Harry Yang 跟中佛罗里达副教学 Sernam Lim。独特一作有喷鼻港科技年夜学拜访先生白亚靖,喷鼻港科技年夜学博士生郑皓泽,Everlyn AI 练习生陈浩东,喷鼻港科技年夜学博士生刘业鑫。另有来自喷鼻港科技年夜学博士生王子豪,马煦然,喷鼻港科技年夜学拜访先生束文杰以及 Everlyn AI 练习生吴显祖。文本到图像(Text-to-Image, T2I)天生义务比年来获得了飞速停顿,此中以分散模子(如 Stable Diffusion、DiT 等)跟自回归(AR)模子为代表的方式获得了明显结果。但是,这些主流的天生模子平日依附于超年夜范围的数据集跟宏大的参数目,招致盘算本钱昂扬、落地艰苦,难以高效地利用于现实出产情况。为懂得决这一困难,喷鼻港科技年夜学 Harry Yang 教学团队结合 Everlyn AI 跟 UCF,提出了一种名为 LightGen 的新型高效图像天生模子,努力于在无限的数据跟盘算资本下,疾速实现best365官方网站高品质图像的天生,推进自回归模子在视觉天生范畴更高效、更求实地开展与利用。

论文题目:LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization论文链接:https://arxiv.org/abs/2503.08619模子链接:https://huggingface.co/Beckham808/LightGen名目链接:https://github.com/XianfengWu01/LightGenLightGen 借助常识蒸馏(KD)跟直接偏好优化(DPO)战略,无效紧缩了年夜范围图像天生模子的练习流程,不只明显下降了数据范围与盘算资本需要,并且在高品质图像天生义务上展示了与 SOTA 模子相媲美的出色机能。

LightGen 相较于现有的天生模子,只管参数目更小、预练习数据范围更精简,却在 geneval 图像天生义务的基准评测中到达乃至超越了局部开始进(SOTA)模子的机能。别的,LightGen 在效力与机能之间实现了精良的均衡,胜利地将传统上须要数千 GPU days 的预练习进程收缩至仅 88 个 GPU days,即可实现高品质图像天生模子的练习。方式描写LightGen 采取的练习流程重要包含以下要害步调:1. 数据 KD:应用以后 SOTA 的 T2I 模子,天生包括丰盛语义的高品质分解图像数据集。这一数据集的图像存在较高的视觉多样性,同时包括由开始进的年夜型多模态言语模子(如 GPT-4o)天生的丰盛多样的文本标注,从而确保练习数据在文本跟图188体育线上平台像两个维度上的多样性。2.DPO 后处置:因为分解数据在高频细节跟空间地位捕捉上的缺乏,作者引入了直接偏好优化技巧作为后处置手腕,经由过程微调模子参数优化天生图像与参考图像之间的差别,无效晋升图像细节跟空间关联的正确性,加强了天生图像的品质与鲁棒性。经由过程以上方式,LightGen 明显下降了图像天生模子的练习本钱与盘算需要,展示了在资本受限情况下获取高效、高品质图像天生模子的潜力。试验剖析作者经由过程试验对照了 LightGen 与现有的多种 SOTA 的 T2I 天生模子,应用 GenEval 作为 benchmapg电子麻将胡了免费版rk 来验证咱们的模子跟其余开源模子的机能。