Dit artikel beschrijft de krachtigste open-source modellen voor het genereren van video en afbeeldingen. U kunt deze modellen volledig lokaal installeren mits u over een geschikte GPU beschikt. Hoewel 12 GB VRAM vaak als ondergrens wordt gezien voor de grotere modellen, maken gekwantiseerde versies (veelal te vinden op Hugging Face) het mogelijk om deze modellen met aanzienlijk minder geheugen (al vanaf 8 GB) te draaien.

1. Video Generatie Modellen

Wan 2.1 / 2.2

  • Beschrijving: De huidige standaard voor open-source video. Zeer stabiel in beweging en anatomie.
  • Gebruik: Hoogwaardige cinematografie, realistische menselijke acties.
  • GitHub (Model): Wan-Video/Wan2.1
  • ComfyUI Node: kijai/ComfyUI-WanVideoWrapper

Hunyuan Video (v1.5)

  • Beschrijving: Tencent's vlaggenschip model met 13 miljard parameters, nu in v1.5 met verbeterde prompt-adherentie en een "distilled" versie voor snelheid.
  • Gebruik: Complexe tekstuele instructies en lange scènes.
  • GitHub (Model): Tencent-Hunyuan/HunyuanVideo
  • ComfyUI Node: kijai/ComfyUI-HunyuanVideoWrapper

LTX Video (LTXV)

  • Beschrijving: Een DiT-gebaseerd model gericht op real-time generatie en efficiëntie op consumenten-GPU's.
  • Gebruik: Snelle previews en real-time video-to-video transformaties.
  • GitHub (Model): Lightricks/LTX-Video
  • ComfyUI Node: Lightricks/ComfyUI-LTXVideo

Kandinsky 5.0 Video (Lite & Pro)

  • Beschrijving: Een suite van modellen gebaseerd op de Cross-Attention Diffusion Transformer (CrossDiT). De Lite (2B) versie is razendsnel en draait op consumenten-GPU's, terwijl de Pro (19B) versie cinematografische 10-seconden clips genereert met complexe camerabewegingen.
  • Gebruik: Veelzijdige videocreatie (Text-to-Video en Image-to-Video) met sterke ondersteuning voor diverse talen en artistieke stijlen.
  • GitHub (Model): kandinskylab/kandinsky-5
  • ComfyUI Template: Kandinsky 5 Video Workflow (Official)

Gespecialiseerde Video Fine-tunes

  • SCAIL: Studio-grade karakteranimatie (pose-to-video) met 3D-consistentie.
  • MoCha: De standaard voor het naadloos vervangen van personages in bestaande video's.
  • Nexus 1.3B : Beschrijving: Een gespecialiseerde fine-tune van de Wan 1.3B architectuur, ontwikkeld binnen het Nexus-project. Dit model is specifiek getraind op "Nexus-data" voor complexe menselijke bewegingen. Gebruik: Dans, vechtsporten en gym-oefeningen waarbij anatomische correctheid cruciaal is. GitHub (Model): PKU-YuanGroup/OpenS2V-Nexus ComfyUI Node: Ondersteund via de WanVideoWrapper.

2. Image Generatie Modellen

FLUX.2

  • Beschrijving: De opvolger van FLUX.1. Biedt fotorealisme en tekst-rendering die commerciële modellen zoals Midjourney evenaart.
  • Gebruik: Alles van marketingmateriaal tot complexe digitale kunst.
  • GitHub (Model): black-forest-labs/flux2
  • ComfyUI Node: city96/ComfyUI-GGUF (voor GGUF quantisaties).

Qwen Image 2512

  • Beschrijving: Een geavanceerd model van Alibaba dat uitblinkt in het volgen van instructies voor afbeeldingsbewerking.
  • Gebruik: Laag-gebaseerde bewerkingen en complexe composities.
  • GitHub (Model): QwenLM/Qwen-Image
  • ComfyUI Node: Gebruik de ComfyUI-Manager en zoek op "Qwen2-VL".

Z-Image (Turbo)

  • Beschrijving: Een 6B parameter model van Alibaba dat in slechts 8 stappen resultaten van topniveau levert.
  • Gebruik: Real-time generatie en systemen met beperkte hardware.
  • GitHub (Model): Tongyi-MAI/Z-Image
  • ComfyUI Node: Geïntegreerd via WanVideoWrapper of direct via diffusers.