ag百家乐贴吧 何恺明开采分形生成模子新范式!盘算推算遵循进步4000倍

发布日期:2024-09-25 05:16    点击次数:164

白交 梦晨 发自 凹非寺量子位 | 公众号 QbitAIag百家乐贴吧

何恺明再次开宗立派!开采了生成模子的全新范式——

分形生成模子Fractal Generative Models,初次使逐像素生成高分散率图像成为可能,论文名字依旧络续以往的大路至简格调。

团队将生成模子自己详细为可复用的“原子模块”。

通过递归地在生成模子中调用这些原子生成模块,不错构建出一种自不异的分形架构。

其灵感源于数学中的分形念念想。它相配于一个芜俚或碎裂的几何局势分红数个部分,每一部分都(至少雷同地)是举座松开后的局势。即具有自不异的性质。

嗯,即是像俄罗斯套娃(Matryoshka)那神气。

By the way,「俄罗斯套娃」这个词也曾被其他论文用过了,sad。

团队建议用参数化的神经汇聚四肢分形生成器,从数据中学习这种递归法规,终了对高维非序列数据的建模,也可用于材料、卵白质等。

限定在「逐像素图像生成」这一任务中施展出色。

看到这张图,难免让东说念主料想此前何恺明的代表作之一掩码自编码器MAE。

通过对输入图像的当场区块进行粉饰,然后重建缺失的像素。

这次团队也献媚MAE的遵循探索了一些可能性。现在该遵循代码已开源。

逐像素生成高分散率图像

何如使用自回想模子四肢分形生成器?

领先接洽到倡导是对一大组当场变量的皆集散布进行建模 ,平直使用单个自回想模子的盘算推算量令东说念主远而避之。

团队收受的要害战略是“分而治之”,将自回想模子详细成一个模块化单位。

由于每个级别的生成器都不错从单个输入生成多个输出,因此分形框架不错在只需要线性数目的递归级别的情况下终了生成输出的指数级增长。

最终,在每个分形级别中,自回想模子禁受来自前一个生成器的输出,将其与相应的图像块联贯,并使用多个transformer模块为下一个生成器生成一组输出,逐渐从图像块到像素细化生成进程。

之是以采取像素级图像生成这个任务,是由于原始图像数据具有高维度和复杂性,像素之间存在丰富的结构样式和互相依赖关连。

这类高维生成问题任务在逐一元素生成数据,但又与长序列建模不同,经常触及非礼貌数据,像分子结构、卵白质、生物神经汇聚等数据也顺应这个特质。

团队以为分型生成模子不仅是一个盘算推算机视觉才气,AG百家乐是真的么还能展示分形才气在科罚这类高维非礼貌数据建模问题上的后劲,为其他数据范围的愚弄提供参考。

不外照旧来望望它在像素级图像上的施展:

领先是直不雅的视觉效果,在ImageNet 256x256数据集上,逐像素生成一张图需要1.29秒。

测试倡导方面,分形模子在ImageNet 64×64无条目生成上终昭着3.14bits/dim的负对数似然,超过此前最好的自回想模子。

在图像质料上,FractalMAR-H 模子达到6.15的FID和348.9的Inception Score。

更值得关爱的是,分形架构将盘算推算遵循进步到传统才气的4000倍,逐一像素生成高分散率图像初次成为可能。

团队还探索了将掩码重建与分形生成模子献媚起来,推行发现也不错准确展望被粉饰的像素。

此外,它不错有用地从类标签中拿获高等语义,并将其反应在展望的像素中,比如临了一列,把猫的脸替换成狗的脸,这些限定评释了该才气在已知条目下展望未知数据的有用性。

临了附上更多生成限定样本。

何恺明MIT天团,一作黎天鸿

这次遵循是由MIT何恺明团队和谷歌DeepMind全华东说念主班底完成,并由谷歌提供TPU、GPU资源援救。

一作何恺明的学生黎天鸿。

黎天鸿本科毕业于清华叉院姚班,在MIT赢得了硕博学位之后,现在在何恺明组内从事博士后盘问。

他的主要盘问标的是表征学习、生成模子以及两者之间的协同作用。倡导是构建大要和洽东说念主类感知除外的天下的智能视觉系统。

此前曾四肢一作和何恺明修复了自条目图像生成框架RCG,团队最新的多项盘问中他也都有参与。

Qinyi Sun,现在MIT三年龄本科生。

范丽杰,清华盘算推算机系学友,客岁博士毕业于MIT CSAIL,现在在谷歌DeepMind担任盘问科学家,接力于生成模子和合成数据。

此前曾与黎天鸿共同参与过FLUID的盘问——

一个可推广的自回想文本转图像模子,无需VQ。10B参数模子终了SOTA性能。

论文地址:

https://arxiv.org/abs/2502.17437v1