Lada|JavPlayer 中文交流论坛

 找回密码
 立即注册
查看: 1390|回复: 55

关于lada剪切时长(片段长度)的思考

[复制链接]

5

主题

55

帖子

152

积分

初级会员

Rank: 2

积分
152
发表于 2025-10-21 15:46:44 | 显示全部楼层 |阅读模式
本帖最后由 wangqi 于 2025-10-21 17:57 编辑

lada默认的剪切时长(片段长度)是180(帧)。根据在github中,作者在一个issue的下边回复得知:去马赛克模型训练的素材是30帧的片段,且作者本人不建议超过设置的数值超过180帧。但是超过180帧是否有反作用,作者说他没验证过,只是不建议超过180帧。

在lada的发布页面,我们可以看到作者测试时长的数据如下图


综合以上可知,作者是用30帧的视频训练的模型+破解的视频也是30帧/秒+建议剪切时长不超过180帧。

那么玩过AI生图的兄弟们就会知道,stable diffusion模型一般建议生图尺寸是512*512/512*768/768*512,因为这个模型训练的时候用的训练素材都是这个尺寸的。超过这些尺寸,出图出现问题的概率就会很高。Flux模型的一般建议生图尺寸是1024*1024/1280*720/720*1280,同样是因为Flux模型训练的素材大多是这个尺寸。

那么同理,我们可以得出lada的最佳剪切帧数理论上应该是30,因为训练素材用的就是这个时长。

但是lada这个模型训练的是综合多帧图像学习,然后破解出马赛克区域的图像的能力,这里边重要的是综合多帧图像的能力,这也是lada比javplayer厉害的地方。
那么理论上应该是学习的图像越多,破解的效果越好。

按照这个逻辑,这个数值应该越大越好,那么为什么作者建议最大不要超过180帧呢?

我个人猜测有两个原因:

1、之前玩AI生图的时候,有学习一点训练lora的知识。在lora训练中,有一个叫loss值的,该值越低,代表生成的图像跟训练的图像越接近,也就是学习的效果越好。但是loss值也不能太低,太低的话就跟原图完全一样了,就没有泛化能力了。
泛化能力是什么意思呢?泛化能力就是假如你训练的素材里边有一个物品45度和90度的样子,泛化能力强的话,模型就能给你生出50度-65度-70度这种任意角度的合理图片,并且跟素材里没有的东西产生交互(光影)关系,这个推测的能力就叫泛化。没有泛化能力的模型,就只能给你生出45度和90度的图片,并且和素材图基本一样,跟生成图片中的其他地方完全不搭,像是硬放上去的。
所以在lora训练的时候,要控制这个loss值在一定的范围内,太高的话,没学习到,生成的图像跟素材不像。太低的话,过拟合了,就是跟素材图太像了,生成的图像与周边不融合,也会导致结果变差。loss值跟训练的步数和学习率有关,在学习率不变的情况下,学习步数越多,loss值越低,跟原图越像。结合上边对泛化能力的解释,我们知道loss值不能太低,也不能太高,也就意味着学习的步数不能太高也不能太低,需要在一个合理的区间,既能生成跟素材相似度很高的图像,又拥有创造出素材中没有的角度的图片的能力。
那么如果lada的模型也是这个原理的话,也就意味着剪辑时长不能太短,也不能太长。太短的话,学习的不到位(类似于javplayer的效果);太长的话,过拟合了(没有皮肤的质感,像是被磨皮或者融化的感觉),都不好。

2、破解过程中,模型学习多帧图像综合去码的时候,如果这个多帧图像变化不大,理论上帧数越多效果越好。但是视频中一旦有大范围的镜头改变,比如角度和远近的变化,可能会导致模型学习总结出来的结果变差,从而导致破解效果变差,所以同样得出这个数值不能无限增加,要找到一个合理的值。这个值最好是既能保证长度够长,又能尽可能的避免在这个时长中镜头变化过大。

综上,是我猜测作者给出180帧这个数值的建议的原因!!!!!

但是在ladaapp的介绍页面,我们看到作者测试破解用时的时候,用的视频都是30帧/秒的视频,对应作者建议的180帧这个数值,也就是6秒的视频切一次。


那么按这个时长来计算的话,如果我们破解的是60帧/秒的视频的话,这个数值是不是应该设置为360更好呢?

所以最终我暂时的建议是【结合你的内存和显存大小,让剪切时长尽量靠近5-6秒左右,且数值保持为30的倍数,让其跟训练素材成倍数关系】

也就是

【如果是30帧/秒的视频,个人建议结合内存和显存大小填150、180】

【如果是60帧/秒的视频,个人建议结合内存和显存大小填240、300、360】



以上结论未经验证,因为本人设备比较老旧,没有能力去横向测试对比,仅整理出思路供大家探讨!!!
希望设备比较好,有能力的兄弟通过控制变量横向对比一下1-6秒剪切时长的破解效果。



最后,本人金币太少了,没有安全感,有能力的兄弟购买一下文件,万分感谢(该文件里啥都没有,金币不多的兄弟不必购买)




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

9

主题

45

帖子

722

积分

中级会员

Rank: 3Rank: 3

积分
722
发表于 2025-10-21 16:06:26 | 显示全部楼层
前排支持,买个纯粹支持。
Lada技术交流qq群:582588600
回复

使用道具 举报

5

主题

55

帖子

152

积分

初级会员

Rank: 2

积分
152
 楼主| 发表于 2025-10-21 16:14:00 | 显示全部楼层
gbywreyuerh@out 发表于 2025-10-21 16:06
前排支持,买个纯粹支持。

感谢支持
回复

使用道具 举报

0

主题

7

帖子

33

积分

注册会员

Rank: 1

积分
33
发表于 2025-10-21 16:23:41 | 显示全部楼层
已购买,支持楼主
回复

使用道具 举报

1

主题

26

帖子

35

积分

注册会员

Rank: 1

积分
35
发表于 2025-10-21 16:42:14 | 显示全部楼层
好贴,支持楼主
回复

使用道具 举报

0

主题

9

帖子

10

积分

注册会员

Rank: 1

积分
10
发表于 2025-10-21 16:48:01 | 显示全部楼层

好贴,支持楼主
回复

使用道具 举报

3

主题

23

帖子

36

积分

注册会员

Rank: 1

积分
36
发表于 2025-10-21 17:17:43 | 显示全部楼层
感谢楼主分享心得,你的理解是目前看到最有道理的。主要大家普遍关心的问题首先是破解质量,其次是破解耗时,而剪切时长这个参数对这两者都有影响,偏偏作者又说得很模糊,你的贴子基本上把剪切时长对质量的影响说明白了,但是相同配置下对耗时的影响还是没搞明白,同样的视频我试了几个数值,跨度很大,可是耗时好像都差不多,而且对CPU和GPU的占用都不高,再综合你说的剪切时长最高180-360,貌似这软件性能瓶颈挺低的。
回复

使用道具 举报

0

主题

20

帖子

16

积分

注册会员

Rank: 1

积分
16
发表于 2025-10-21 17:23:14 | 显示全部楼层
破解模型大概帧占显存3.2g 使用n卡硬编码 clip max180帧时 占用显存在3.8g左右 这样即使是1050ti亮机卡级别的n卡也能使用,加上作者发布的docker版,作者大概率是想轻量化的,比如黑群晖、飞牛这些nas可以一个极低的成本来运行,而且破解时功耗很低
回复

使用道具 举报

0

主题

13

帖子

15

积分

注册会员

Rank: 1

积分
15
发表于 2025-10-21 17:29:35 | 显示全部楼层
dddddddddddddddd
回复

使用道具 举报

0

主题

20

帖子

16

积分

注册会员

Rank: 1

积分
16
发表于 2025-10-21 17:32:22 | 显示全部楼层
布鲁诺十二 发表于 2025-10-21 17:17
感谢楼主分享心得,你的理解是目前看到最有道理的。主要大家普遍关心的问题首先是破解质量,其次是破解耗时 ...

不是软件性能瓶颈,是因为破解模型只有3.g,且整个流程是先截取帧——检测马赛克——破解——编码的步骤,clip不管设置多少,他也得一帧帧看,所以看任务管理器cuda的使用率成山峰状 峰谷时在编码
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Lada|JavPlayer 中文交流论坛 |网站地图

GMT+8, 2025-12-1 07:28 , Processed in 0.024575 second(s), 24 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表