善良的小姨子在线观看
  • 首页
  • U系大作战2
  • 五月天色情成人电影
  • ipad怎么在线看av
  • 很很 射
  • 丝袜美腿图片
  • 动漫成人快播
  • U系大作战2你的位置:善良的小姨子在线观看 > U系大作战2 > 伦理片电影大全 性能不输SOTA,缱绻量仅DiT一半!T2X任务新范式来了
    伦理片电影大全 性能不输SOTA,缱绻量仅DiT一半!T2X任务新范式来了
    发布日期:2024-10-19 11:05    点击次数:187

    伦理片电影大全 性能不输SOTA,缱绻量仅DiT一半!T2X任务新范式来了

    性能不输 SOTA 模子伦理片电影大全,缱绻支出却更低了——

    中山大学和 360 AI Research 集中推出PT-DiT,同参数范畴下,缱绻量仅为 DiT 的 51.4%,Lumina-Next 的 17.5%。

    具体来说,PT-DiT 基于 Proxy token 机制,能用于文生图(Qihoo-T2I)、文生视频(Qihoo-T2V)和文生多视图(Qihoo-T2MV)等多种任务。

    (Qihoo-T2X 指文本到纵情视觉任务)

    话未几说,咱们径直看几个最终身成成果,文生图 be like:

    接下来是本年火热的视频生成,prompt 如下:

    Sunset cityscape with spires, buildings, clouds, warm glow, and trees. ( 夕阳下的城市景不雅,有尖塔、建筑物、云朵、和善的色泽和树木。 )

    熟女人妻网

    终末是多视图生成,宝剑、小黄鸭等纵情素材均可罢了转 3D 成果。

    咫尺该盘考也曾绽开了论文、表情主页和代码仓库,行将开源。

    盘考动机

    刻下,基于 Diffusion Transformer 的模子(Sora , Vidu, Flux 等)粗略生成高保真图像或视频,并与文本指示具有强一致性,极大促进了视觉生成的杰出。

    可是,global self-attention 对于序列长度的二次复杂度增多了 Diffusion Transformer 的缱绻支出,导致了内容运用时更长的生成时间和更高的磨练老本。

    这个问题也阻挠了 Diffusion Transformer 在高质地和长时间视频生成中的运用。

    举例,优于 2D spatial attention+ 1D temporal attention 的3D full attention却由于缱绻支出的适度而难以进行更高分辨率和更长时间视频生成的探索。

    一些视觉融会和识别领域的盘考发现,由于视觉信息的稀少和叠加性质,global self-attention 具有一定的冗余性。

    盘考团队通过可视化留意力争发现:

    兼并窗口内的不同 token 对于空间上距离较远的 token 的存眷进程是一样的,对于空间上相近的 token 的存眷进程是不同的。

    如上图所示,盘考团队分析了 PixArt- � � 在分辨率为 512x512 情况下 self-attention 中的留意力争。

    然后将位于兼并个空间窗口 token 的留意力争组合到一说念,如图右侧所示,其中垂直轴默示窗口中的不同 token,水平轴默示窗口内 token 与扫数 token 的关联进程。

    很显明,兼并窗口内不同 token 的留意力对于空间上距离较远的 token 险些是一致的,即在疏通的水平位置,垂直值险些疏通;而空间相邻的 token 领会出不同的存眷。

    这标明缱绻扫数 token 的留意力是冗余的,而对缱绻空间相邻 token 的留意力至关遑急。

    是以,盘考团队建议了一种基于 proxy token 的稀少留意力计谋,从每个窗口采样有限的 proxy token 来践诺自留意力,从而减少冗余并裁减复杂性。

    Qihoo-T2X 景况

    如下图所示,骚波妹影视盘考团队建议的 PT-DiT 引入了 proxy token 来减少缱绻 global self-attention 所触及的 token 数目,高效地迷惑全局视觉信息的关联。

    PT-DiT 包含的两个中枢模块是:

    Global Information Interaction Module ( GIIM )

    Texture Complement Module ( TCM )

    其中,GIIM 使用稀少 proxy token 机制促进扫数潜在代码之间的高效交互,而空间相邻 token 的关联是不行忽略的,荒谬是对于细节纹理条件高的图像生成任务。

    为此盘考团队设想了 TCM,其通过 window attention 和 shift window attention 进一步细化局部细节。

    底下将防卫先容这两个部分:伦理片电影大全

    Global Information Interaction Module

    给定一系列 latent token,当先凭证空间和时间先验(即位于兼并个空间窗口)通过缱绻平均 token 得到一系列 proxy tokens。

    每个 proxy token 代表图像或视频内的一个局部区域的信息,并与其他局部区域中的 proxy token 通过 self-attention 进行交互以迷惑全局视觉关联。

    随后,proxy tokens 中蕴含的信息被通过与 latent token 的 cross-attention 传播到全部 latent token 中,从而罢了高效的全局视觉信谢绝互。

    Texture Complement Module

    由于稀少 proxy tokens 交互的特色况兼阑珊空间周边 token 的相互关联,生成模子对于建模细节纹理的才调有限,难以骄气生成任务的高质地需求。

    为了处分这个问题,盘考团队引入了局部 window attention,补充模子的细节建模和平滑才调。

    不外仅有 window attention 会导致窗口间 token 阑珊联系,导致生成图像格子安靖显明。

    因此,TCM 中还引入了 shift window attention,缓解局部 window attention 引起的问题。

    由于缱绻 window attention 触及的 token 数目较少,是以模子的缱绻复杂度并莫得大范畴增多。

    压缩比例

    对于图像生成任务,盘考团队发咫尺不同分辨率下保握疏通数目的窗口对于确保一致的语义脉络结构至关遑急,这有助于从低分辨率到高分辨率的磨练进程。

    同期,窗口应该督察较多的数目以谨防窗口内的语义信息太过丰富,导致单个 token 不及以默示局部区域完周至局信息建模。

    因此,盘考团队将压缩比(� � � �,� � ℎ,� � � �)诞生为 ( 1,2,2 ) 、 ( 1,4,4 ) 、 ( 1,8,8 ) 和 ( 1,16,16 ) 差异在 256、512、1024 和 2048 分辨率。

    当输入是图像时,� � 和� � � � 将被诞生为 1。

    对于视频生成任务,盘考团队在不同分辨率下均诞生� � � �=4以保握时间压缩一致。

    由于帧、高度和宽度维度上的 token 压缩,PT-DiT 不错磨练更长视频的生成器。

    缱绻复杂度分析

    PT-DiT 仅使用一丝的代表性 token 留意力,就裁减了原始全 token 自留意力的缱绻冗余度。

    盘考团队进一步从表面上分析 PT-DiT 在缱绻复杂度方面的上风。

    自留意力的缱绻复杂度为 2N2D,缱绻如下:

    其中 N 默示潜在记号的长度,D 默示特征维度。

    访佛地,GIIM 和 TCM 的缱绻复杂度缱绻如下:

    显明,由于代理记号化计谋,PT-DiT 具有显赫的上风,尤其是在压缩比(� � � �,� � ℎ,� � � �)较大和序列长度(N)较长的情况下。

    当(� � � �,� � ℎ,� � � �)为 ( 1,2,2 ) 、 ( 1,4,4 ) 、 ( 1,8,8 ) 和 ( 1,16,16 ) 且图像分辨率为 256(N=256)、512(N=1024) 、1024(N=4096)和 2048(N=16384)时,PT-DiT 的缱绻复杂度仅为全局自留意力的34.3%、9.7%、4.7%、2.3%。

    此外,PT-DiT 对于序列长度较长的视频生成任务提供了更大的平正。

    实验

    作家在T2I、T2V 和 T2MV 任务上进行了定性和定量实验来评估 Qihoo-T2X。

    定性分析

    对于Text-to-Image,如图所示,Qihoo-T2I 粗略生成与提供的文本指示荒谬匹配的传神图像。

    对于Text-to-Video,盘考东说念主员将 Qihoo-T2V 与最近发布的开源文本转视频模子(即 EasyAnimateV4 和 CogVideoX)在 512 分辨率下进行了比较,如图赢得了更好的成果。

    终末,作家进一步探索了 PT-DiT 在文本到多视图 ( T2MV )   任务中的灵验性。

    经过磨练的 Qihoo-T2MV 粗略凭证提供的文本指示从各个视点生成 512x512x24 图像,领会出强空间一致性。

    定量分析

    盘考团队在 MS-COCO FID-30K, UCF-101 和 MSR-VTT 等 benchmark 上定量评估 Qihoo-T2I 和 Qihoo-T2V。

    末端走漏,Qihoo-T2I 和 Qihoo-T2V 均能罢了存竞争力的性能,评释了 PT-DiT 的灵验性。

    缱绻复杂度分析

    如图所示,岂论是图像或视频生成任务,在疏通参数范畴下,PT-DiT 比拟现存 Diffusion Transformer 景况,均有大幅度的缱绻复杂度上风。

    同期对比 3D full attention 建模的 EasyanimateV4,其磨练显存跟着帧数的增多而爆炸增长,而 PT-DiT 的显存仅有狭窄增长,标明PT-DiT 有后劲完成更长时间的视频生成任务。

    终末的消融实验也考证了 PT-DiT 中要津设想的合感性。

    更多细节原宥查阅原论文。

    论文地址:

    https://arxiv.org/pdf/2409.04005

    表情主页:

    https://360cvgroup.github.io/Qihoo-T2X

    代码仓库:

    https://github.com/360CVGroup/Qihoo-T2X

    —  完  —

    投稿请发邮件到:

    ai@qbitai.com

    标题注明【投稿】,告诉咱们:

    你是谁,从哪来,投稿内容‍

    附上论文 / 表情主页一语气,以及联系方式哦

    咱们会(尽量)实时酬谢你

    点这里� � 存眷我,铭记标星哦~

    一键三连「共享」、「点赞」和「在看」

    科技前沿进展日日重逢 ~  



    Powered by 善良的小姨子在线观看 @2013-2022 RSS地图 HTML地图

    Copyright Powered by站群 © 2013-2024