无需非凡模子测验、即插即用AG百家乐有什么窍门,全新的视频生成增强算法——Enhance-A-Video来了!
和最近东说念主气超高的混元视频生成模子(HunyuanVideo)对比来看,加入Enhance-A-Video的版块在生成画面中发达出了愈加丰富的细节和更高的语义契合度,生成内容和用户输入的文本教唆更匹配:
翻开新闻客户端 提高3倍畅达度商议团队成员来悛改加坡国立大学、上海AI试验室和德克萨斯大学奥斯汀分校。
浅易来说,新算法通过治疗时分老成力层输出的一个要道参数,大约在险些不增多推理背负的情况下,大幅提高生成视频的细节发达和时序连贯性。
Enhance-A-Video还兼容多种主流视频生成模子,无需修改基础架构即可径直应用。
比如CogVideoX-2B + Enhance-A-Video:
还有OpenSora-V1.2 + Enhance-A-Video:
试验闭幕表露,Enhance-A-Video在提高视频质料方面发达不凡,尤其是在对比度、了了度以及细节真确性上有显耀纠正。
新算法仍是发布,其弘大的泛化才智亦然马上得回了社区的招供。
许多网友已将该算法集成到多个主流推理框架中,包括ComfyUI-Hunyuan和ComfyUI-LTX。
对比一下网友Kijai发布的原始混元模子和增强后的效果,不错看到模子生成画面愈加当然,动态发达也愈加畅达:
△
Comfy-UI测试闭幕,左边为原始视频,右边为增强视频
LTX-Video的商议东说念主员Nir Zabari还告捷将它应用到了LTXV模子中,显耀提高了生成视频在动作一致性和细节呈现方面的发达。
这一后果标明,Enhance-A-Video不仅适用于特定模子,还能渊博适配于不同的视频生成框架。
商议配景:提高视频生成质料需求热烈
连年来,以Diffusion Transformer(DiT)为代表的视频生成技能[1]迅猛发展,大约笔据文本描摹生成种种化的视频内容。
联系词,现存才能仍面对以下挑战:
时序不连贯:帧与帧之间阑珊一致性;
细节弄脏:画面纹理阑珊了了度;
画面抖动:动态效果不够牢固。
这些问题显耀影响了生成视频的实用性和不雅看体验,奈何提高 AI 生成视频的质料成为当前商议的要道问题之一。
为了措置上述问题,Enhance-A-Video应时而生。其中枢旨趣是通过一个增强扫数,优化时分老成力的分裂,从而扫尾以下上风:
高效增强:快速提高视频质料;
无需测验:可径直应用于现存生成模子;
即插即用:生动适配多种场景和需求。
联想动机:时分老成力的优化后劲
时分老成力(Temporal Attention)在DiT模子中谨慎信息的帧间传递,对生成视频的连贯性和细节保留至关进犯。
通过对不同DiT层的时分老成力分裂进行可视化分析,商议东说念主员发现:
在部分DiT层中,时分老成力的分裂存在显耀各异:跨帧老成力(非对角线部分)的强度昭彰低于单帧自老成力(对角线部分)。
这一怡悦可能导致帧间信息传递不及,ag百家乐网址进而影响视频的一致性和细节发达。
基于这一不雅察,作家忽视了一个要道假定:能否通过诳骗时分老成力来提高视频质料?
△
不同DiT层的时分老成力分裂图
这一假定的灵感开始于大言语模子(LLM)中的温度扫数(τ)调遣机制。
在文本生成中,通过治疗Softmax的温度参数不错均衡一致性与种种性[2]:
增大τ,生成闭幕愈加种种化。
减小τ,生成闭幕更连贯一致。
访佛地,在视频生成中,时分老成力的温度扫数不错径直影响帧间有关性强度,为Enhance-A-Video的联想提供了表面基础。
才能详尽:无需测验的动态增强有狡计
基于上述不雅察与念念考,作家初度发当前分老成力的温度扫数决定了不同帧之间的有关性强度,有关性强度越高意味着每一帧生成时,在时分高下文维度所酌量的界限越广。
由此意见开赴,作家忽视了一种治疗时分老成力层输出,无需测验的视频增强才能,该才能不错径直应用于现存的AI视频生成模子。
△
Enhance-A-Video框架图
Enhance-A-Video的中枢联想是通过动态调遣时分老成力层的输出,扫尾对帧间一致性和细节发达的优化。
具体才能分为以下几步:
1.并行增强模块
在时分老成力层的基础上增多一个并行分支,狡计时分老成力分裂图。
输入时分老成力层的守秘景象也被传入增强模块。
2.狡计跨帧强度(CFI)
从时分老成力分裂图中索要非对角线元素的平均值,看成跨帧强度(Cross-Frame Intensity, CFI)。
3.动态增强截止
引入增强温度参数(Enhance Temperature),将其与CFI的乘积看成增强模块的输出扫数。
诳骗该扫数动态治疗时分老成力层输出的特征增强强度。
通过这一战略,Enhance-A-Video 大约高效地提高视频的帧间一致性和细节发达,而无需对原始模子进行再行测验。
为AI视频生成技能提供新念念考
这项商议忽视了首个无需测验、即插即用的AI生成视频质料增强才能——Enhance-A-Video,针对当前生成视频质料的要道问题,围绕时分老成力机制张开翻新联想,主要孝顺如下:
翻新性才能:通过在时分老成力层狡计交叉帧强度,引入增强温度参数,提高帧间一致性与细节发达力。
高效性与通用性:无需测验,径直适配主流视频生成模子。
显耀性能提高:在HunyuanVideo等模子上措置了细节缺成仇时序不一致等问题。
将来他们还会在此基础上进一步开展使命,包括:
自符合增强:商议自动调遣增强温度参数机制,优化一致性与种种性均衡。
扩张适用性:优化才能联想以适配大界限模子和多模态场景。
质料评价:构建更完善的视频生成质料评价体系。
作家示意,期待本商议为AI视频生成技能的内容应用与质料提高提供新的念念路和因循!
参考文件:
[1]Brooks, Tim, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang and Aditya Ramesh. “Video generation models as world simulators.“ OpenAI Research (2024).
[2]Renze, Matthew and Erhan Guven. “The Effect of Sampling Temperature on Problem Solving in Large Language Models.” ArXiv abs/2402.05201 (2024).
— 完 —AG百家乐有什么窍门