Steven Video Production
返回博客
May 8, 20267 分钟阅读中文

LTX-2.3:免费开源AI视频模型,在自己的GPU上生成4K视频

本地GPU运行开源AI视频生成

LTX-2.3 是完全免费的开源AI视频模型,能在本地GPU上生成4K/50fps视频并同步音频,不需要订阅,不按clip收费。这篇文章告诉你它能做什么、怎么装、什么时候比Kling和Veo更值得用。

为什么开源AI视频现在值得认真对待

Kling、Veo、Seedance、Runway——每一款主流AI视频工具都是按积分计费的。每个clip收费,按秒收费,按次生成收费。对于每个月要产出50个以上clip的创作者或小型制作公司,这些费用积累起来相当可观。按Kling 4K单价CA$0.40计算,每月100个clip就是CA$40。换成Runway Gen-4,可能要接近CA$200。

LTX-2.3彻底改变了这个算法。它是以色列公司Lightricks(FaceTune和LTX Studio的母公司)发布的完全开源视频生成模型,采用Apache 2.0商业友好协议。你下载模型权重,在自己的GPU上运行,生成多少clip都行。每个clip的成本就是电费。

2.3版本发布后,LTX和付费工具的画质差距大幅缩小。原生4K输出、50fps、同步音频生成、与Kling 3.0在环境和产品镜头上接近的运动质量。它还不完美——角色一致性仍弱于Kling——但对于一个本地免费运行的工具来说,这个水平已经很惊人了。

LTX-2.3 核心参数

输出质量: - 原生分辨率:最高4K(3840×2160) - 帧率:最高50fps - 时长:每次生成最长10秒(可拼接做更长内容) - 音频:视频生成时同步生成原生音频 - 色彩:支持HDR,开箱即有电影质感色彩

硬件要求: - 最低配置:NVIDIA RTX 3080(10GB显存)— 可跑1080p/24fps - 推荐配置:RTX 4090(24GB显存)— 完整4K/50fps流程 - Apple Silicon:M3 Max和M4 Pro/Max通过MPS后端支持(稍慢但可用) - AMD:ROCm支持,稳定性不如CUDA

授权: Apache 2.0 — 个人和商业用途均免费,包括对外客户交付。

生成速度(RTX 4090): - 1080p,6秒:约45秒 - 4K,6秒:约3分钟 - 4K,10秒:约5分钟

和云端工具比(Kling API约15秒,Veo约20秒),LTX慢一些。但每个clip都是免费的,对批量工作来说这个代价通常值得。

如何用ComfyUI跑LTX-2.3

运行LTX-2.3最实用的方式是通过ComfyUI——这个开源节点工作流工具刚刚完成5亿美元估值融资,拥有400万用户。ComfyUI通过可视化界面处理模型加载、提示词路由和输出管理,完全不需要写代码。

第一步:安装ComfyUI ``` git clone https://github.com/comfyanonymous/ComfyUI cd ComfyUI pip install -r requirements.txt ``` 或者用comfy.org的桌面安装器——Windows和Mac一键完成。

第二步:下载LTX-2.3模型权重 权重托管在Hugging Face,总大小约12GB。 ``` # 放在 ComfyUI/models/video_models/ 目录下 huggingface-cli download Lightricks/LTX-Video ltx-video-2b-v0.9.5.safetensors ```

第三步:安装LTX ComfyUI节点包 在ComfyUI Manager里搜索"LTX Video"并安装,会在工作流面板中添加LTX生成节点。

第四步:加载入门工作流 从ComfyUI文档(docs.comfy.org/tutorials/video/ltx/ltx-2-3)下载官方LTX-2.3工作流JSON,拖进ComfyUI就能直接运行文字转视频。

第五步:生成第一个clip 在正向提示词节点输入描述,设置时长(从6秒开始),点Queue。第一次生成时需要把模型加载进显存,稍慢;后续生成会快很多。

LTX vs Kling vs Veo:各自适合什么场景

LTX-2.3不是用来替代付费工具的,而是补充它们。实用对比如下:

用LTX-2.3的情况: - 高频批量工作(每天20个以上clip),单价成本是关键 - 环境B-roll:风景、城市、抽象运动、产品环境 - 在花钱生成之前先做概念测试 - 内部交付物(培训视频、内部汇报),不需要客户级别的画质 - 需要离线/断网生成的场景 - 网站背景视频、展会展示、数字标牌的循环素材

改用Kling 3.0的情况: - 人物出镜是主体——角色一致性和面部质量Kling仍明显更强 - 速度比成本更重要——Kling API每clip快4-6倍 - 需要5语言原生唇形同步(Kling独有功能)

改用Veo 3.1的情况: - 需要最好的环境音频质量 - 这个clip是高价值交付物的唯一英雄镜头 - Google Workspace集成对你的工作流很重要

实际有效的混合工作流: 本地用LTX做概念测试和批量B-roll生成。当一个概念在本地验证效果不错,再花积分在Kling或Veo里生成最终版本。把积分花在已验证的概念上,而不是实验上。

LTX-2.3的原生音频实际表现

原生音频是LTX-2.3和上一个版本最大的区别。早期版本只生成无声视频,音频必须后期添加。LTX-2.3在单次生成时同步输出视频和音频。

音频引擎和Veo 3.1用的类似:环境音效、环境噪声、物理交互拟音。雨中城市街道的clip会生成雨声。产品放到桌上会生成碰撞声。户外市场场景会生成人群背景音。

实际质量说明: - 环境氛围音:出色,接近Veo 3.1 - 物理交互音效(碰撞、机械):良好 - 背景音乐:基础,建议后期加授权音乐 - 对白/旁白:不支持,还是需要单独录音

对于房产B-roll(建立镜头、社区街道、配套设施展示),LTX-2.3的音频生成省去了后期单独给每个clip找素材和同步环境音的工序。

在Apple Silicon上跑LTX(M3/M4)

如果你用的是MacBook Pro M3 Max或M4 Pro/Max,LTX-2.3通过PyTorch的MPS(Metal Performance Shaders)后端运行,设置方式和CUDA相同,ComfyUI会自动检测Apple Silicon并切换到MPS。

和NVIDIA RTX 4090的速度对比: - M4 Max(128GB统一内存):1080p约慢2.5倍,4K约慢1.8倍(大内存有帮助) - M3 Max(96GB):1080p约慢3倍 - M3 Pro(36GB):限制在1080p,某些配置下4K会OOM

Apple Silicon的统一内存架构意味着M4 Max可以把完整4K流程加载进内存不换页,这部分补偿了较慢的GPU吞吐量。对已经有MacBook Pro的创作者来说,本地跑LTX是免费的,不需要额外买硬件。

有RTX 4080或更高显卡的Windows用户,CUDA路径更快更稳定。NVIDIA的Tensor Core加速在4K分辨率下有明显差异。

值得花时间配置吗?

配置时间大约需要1-2小时,如果你每月生成超过20-30个clip,这个时间很快就能回本。那个量级下,比Kling Premier(约CA$30/月可生成375个clip)省的钱不算多,但LTX没有clip上限。每月产出200个以上社交素材的视频制作工作流,规模化之后省的钱是实打实的。

对温哥华的创作者来说:LTX非常擅长房产和企业品牌视频所需的那种氛围B-roll。社区建立镜头、产品环境素材、抽象品牌运动——这些都在LTX-2.3目前的能力范围内。

这个工具还在快速进化,Lightricks大约每6-8周出一个更新。LTX和付费工具之间的差距会继续缩小。现在就熟悉ComfyUI工作流,等画质跨过客户级别那道门槛时,你已经准备好了。

LTX视频模型开源AIAI视频生成本地AI

常见问题

LTX-2.3真的可以免费商用吗?

是的。LTX-2.3采用Apache 2.0协议,允许商业用途包括对外客户交付。你下载模型权重在本地运行,没有使用费,没有按clip收费,不需要订阅。唯一的成本是GPU的电费。

跑LTX-2.3需要什么显卡?

最低配置是NVIDIA RTX 3080(10GB显存),可以跑1080p。要跑4K/50fps推荐RTX 4090(24GB显存)。Apple Silicon的M3 Max和M4 Pro/Max通过MPS后端支持,可以跑完整4K流程。AMD显卡通过ROCm支持,但稳定性不如CUDA。

LTX-2.3和Kling 3.0画质怎么比?

在环境B-roll、产品镜头和抽象画面上,LTX-2.3接近Kling 3.0水平,某些运动流畅度上甚至更好。在人物出镜和面部一致性方面,Kling 3.0仍明显更强。实用策略是:环境和B-roll用LTX,有人出镜的镜头用Kling。

不用ComfyUI也能跑LTX-2.3吗?

可以。LTX-2.3可以通过Python脚本直接运行(Diffusers库),也可以用官方LTX Studio网页应用(云端托管,付费),或者通过AUTOMATIC1111/Forge加插件运行。ComfyUI是自定义工作流最灵活的选项。LTX Studio是不想管本地安装的用户最简单的选项。

LTX-2.3可以断网运行吗?

可以,模型权重下载完成后就能完全离线运行。整个生成流程在本地机器上执行,不需要互联网连接。这使它适用于断网生产环境、网络不稳定的客户现场,或者有数据不上云要求的项目。

在Mac上生成一个clip要多久?

M4 Max(128GB):6秒4K clip大约4-6分钟。M3 Max(96GB):大约6-8分钟。M4 Pro(48GB):1080p大约8-12分钟,4K可能有内存问题。参考对比:RTX 4090生成同样的clip约3分钟。

准备开始你的项目?

联系我获取免费咨询,通常几小时内回复。

联系我