KI lokal installieren: ComfyUI + NovaAnimal auf deinem Rechner

Zebra und der Drache Zeraphys stehen vor einem PC mit RGB-Beleuchtung und zeigen stolz, wie man KI lokal installiert.

Das hier ist kein „Linux-shamanisches Terminalritual“, sondern eine gemütliche, ehrliche Anleitung, wie du eine KI lokal installieren kannst – komplett unter deiner Kontrolle, komplett nerdig gut.

Und ja, wir verwenden die CMD, weil wir’s können.

Und unser Fokus-Modell heute ist NovaAnimal – das ist ein freundliches Tierchen in der KI-Welt, mit dem man fantastische, niedliche, epische oder episch-niedliche Drachen & Kreaturen bauen kann.


Warum KI lokal installieren?

Weil Macht Spaß macht.

Und ganz ehrlich: das Gefühl, wenn du das erste Bild aus deiner eigene Grafikkarte knallst – ohne Cloud, ohne Wartezeit, ohne irgendeine Plattform, die dir sagt „Du hast dein Wochenlimit überschritten“ – das ist schon ein kleines Fest.

Außerdem:

  • Keine Account-Bindung
  • Keine Abo-Kosten
  • Volle Kontrolle über Modelle und Styles
  • Theoretisch unbegrenzte Bildgröße
  • Offline nutzbar (perfekt für Bunker-Mode)
  • Du kannst NSFW Inhalte erstellen (gib es zu, nur deshalb willst du es)

Kurz: Du wirst Herrscher deines Rechenorganismus.


Hardware: Was läuft, was läuft so halb, was läuft göttlich

GPUErgebnisKommentar
GTX 1060 / 6GB*Läuft, aber gemütlich512×512 → gut. Alles drüber → Kaffeemaschine an.
GTX 1070 Ti / 8GB*Ganz OKSD1.5 macht Spaß, SDXL geht mit Geduld.
RTX 3060 / 12GB (bezahlter Link)Sehr gutHier fängt das „ich mach noch ’ne Runde“-Gefühl an.
RTX 4070 / 12GB*SpitzeSDXL butterweich. NovaAnimal fühlt sich zuhause.
RTX 4090 / 24GB*Gott-ModusDu lachst über Renderzeiten.
NVIDIA RTX 6000 / 48GB*Geld spielt keine RolleAus dem Weg Geringverdiener
Nvidia H100 / 90GBDu hast im Lotto gewonnenRenderzeiten bei 8K was ist das?

Kurz:

  • SD1.5-Modelle laufen schon auf mittelalten Karten.
  • SDXL (NovaAnimal XL) liebt 12+ GB VRAM.

Die Abkürzung

Falls du es dir einfach machen willst, kannst du auch den Installer für ComfyUI verwenden. Diesen findest du hier: ComfyUI Installer, danach kannst du direkt mit Schritt 6 weitermachen. Aber achte darauf das die Pfade dann anders sind. Wenn du alle benötigten Dateien installiert hast, geht es in deinem Fall mit Schritt 8 weiter.


Schritt 1 A: Python (64-bit) installieren

Hole dir Python 3.10 oder 3.11 von https://python.org – und wichtig:

→ beim Installationsfenster „Add Python to PATH“ anhaken.

Testen:

python --version
py --version

Wenn da 3.10.x oder 3.11.x steht → perfekt.


Schritt 1 B: Git installieren (falls nicht vorhanden)

Damit wir ComfyUI per CMD klonen können, brauchen wir Git.

Variante A – über winget (Windows 10/11 Standard)

winget install --id Git.Git -e

Danach CMD neu öffnen:

git --version

Wenn eine Versionsnummer erscheint → alles gut.

Variante B – Installer ohne GUI öffnen

start https://git-scm.com/download/win

Der Download startet automatisch. Installieren → Standard-Einstellungen passen.


Schritt 2: ComfyUI herunterladen

Wir legen uns einen festen Ordner an:

mkdir C:\ComfyUI
cd /d C:\ComfyUI

Dann klonen:

git clone https://github.com/comfyanonymous/ComfyUI .


Schritt 3: Virtuelle Umgebung (venv)

cd /d C:\ComfyUI
py -3.10 -m venv .venv
C:\ComfyUI\.venv\Scripts\activate
python -m pip install --upgrade pip setuptools wheel


Schritt 4: PyTorch mit GPU-Unterstützung installieren

Für NVIDIA-GPUs:

pip install --index-url https://download.pytorch.org/whl/cu118 torch torchvision torchaudio

Wenn das kracht → probier:

pip install --index-url https://download.pytorch.org/whl/cu121 torch torchvision torchaudio

Wenn alles kracht → CPU-Version (langsam, aber funktioniert):

pip install torch torchvision torchaudio

Dann ComfyUI-Bedarf installieren:

pip install -r requirements.txt


Schritt 5: ComfyUI einmal starten

python main.py

Im Browser öffnen: http://127.0.0.1:8188/

Beenden mit CTRL + C.

Das erzeugt die Modellordner.


Schritt 6: NovaAnimal einbinden

Modelle hier reinlegen:

  • Modelle / Checkpoints → C:\ComfyUI\models\checkpoints\
  • LoRAs → C:\ComfyUI\models\loras\
  • VAE → C:\ComfyUI\models\vae\

Na toll und wo bekomme ich das her? Keine Sorge, du findest es genau Hier: NovaAnimal und es gehört nach C:\ComfyUI\models\checkpoints\

Und mach dir erst mal keine Gedanken darüber was Checkpoints, LoRAs oder VAEs sind. Das klären wir in zukünftigen Beiträgen auch noch.


Schritt 7: Starten mit Browser-Autoload (Optional)

Erstelle Datei C:\ComfyUI\start_comfyui.bat:

@echo off
cd /d C:\ComfyUI
call .venv\Scripts\activate
start "" /min cmd /c "timeout /t 3 >nul & start http://127.0.0.1:8188"
python main.py

Doppelklick → läuft → Browser öffnet.


Schritt 8: „Verkabeln“ in ComfyUI (Text → Bild)

ComfyUI arbeitet wie ein Baukasten aus kleinen Funktionsblöcken (Nodes), die du miteinander verbindest. Für den einfachsten Text-zu-Bild-Workflow brauchst du tatsächlich nur vier Kernbausteine:

  1. Checkpoint Loader
    Lädt dein Modell – z. B. NovaAnimal.
  2. CLIP Text Encode (Positive / Negative Prompt)
    Positive Prompt beschreibt was du willst. Negative Prompt beschreibt was du nicht willst.
  3. KSampler
    Das Herz der Bildgenerierung: Sampling-Methode, Schritte, Seed, etc.
  4. VAE Decode → Save Image
    Wandelt das interne „Latent-Bild“ in ein sichtbares Bild um und speichert es.

Minimal-Workflow (Text2Image)

Oder in Worten:

  • Modell lädt die Grundfähigkeiten.
  • Prompts steuern Inhalt & Stil.
  • KSampler erzeugt das Bild (im unsichtbaren Latent-Raum).
  • VAE wandelt es in ein normales Bild um.

Typische Sampler & Werte

EinstellungEmpfehlungBedeutung
SamplerDPM++ 2M KarrasSehr saubere, kontrollierbare Ergebnisse.
Steps20–35Mehr Steps → mehr Details (aber auch länger).
CFG Scale6–9Wie stark der Prompt das Bild bestimmt.
SeedZufällig oder fixGleicher Seed = exakt wiederholbares Bild.

Tipp: Wenn das Bild „zu wackelig“ wirkt → CFG etwas runter.
Wenn das Bild nicht macht was du willst → CFG leicht rauf.

Für SD1.5 vs SDXL

ModelltypGute StartauflösungVRAM-Tipp
SD1.5 (z. B. NovaAnimal 1.5)512×512 bis 768×768Sehr sparsam, läuft fast überall.
SDXL (z. B. NovaAnimal XL)768×768 bis 1024×102412+ GB VRAM empfohlen.

Wenn SDXL ruckelt oder abstürzt: einfach 1024 → 768 reduzieren.


Schritt 9: Erste Prompts für NovaAnimal

1) Freundlicher Drache:

Positive:
cute small dragon, soft scales, three-quarter view, gentle lighting, crisp focus

Negative:
lowres, blurry, extra limbs, mutated eyes, watermark

2) Niedlich, aber nicht Kindchenschema:

Positive:
aesthetic anthro creature, natural proportions, expressive eyes, soft fur detail

Negative:
chibi, giant head, distorted anatomy, blurry

3) Klauen/Flossen/Beine etwas kleiner halten:

small claws, smaller feet, proportionate body

Magic Words für Perspektive:

  • three-quarter view
  • slightly turned 30 degrees
  • camera slightly above eye level
Testergebnis eines simplen Text2Image Prompts mit ComfyUI

Troubleshooting, ohne Drama

ProblemLösung
Bild wirkt komischMehr Negative Prompts. Ja, wirklich.
SDXL crashtAuflösung runter: 1024 → 768.
GPU wird nicht genutztTorch neu installieren → CUDA-Version prüfen.
Start dauert langeKeine Sorge, ComfyUI lädt Models in VRAM.

Fazit

KI lokal installieren ist kein Hexenwerk.

Mit ComfyUI bekommst du:

  • Ein visuelles Node-System, das du verstehen kannst.
  • Volle kreative Freiheit.
  • Kein „Limit erreicht! Bitte Premium kaufen.“

Du baust dir quasi dein eigenes, kleines Bildlabor.

Und NovaAnimal ist ein wunderbarer Einstieg, weil es

  • stilistisch stark ist,
  • gut auf Eingaben reagiert,
  • Charaktere & Kreaturen wirklich fühlbar macht.

Es ist nicht nur Technik.
Es ist ein Werkzeug, mit dem du Welten baust.

Und jetzt: Geh spielen.

🙂

Oder schau dir noch mehr zum Thema KI in meinem Beitrag „KI verstehen und nutzen“ an.

Uhrzeit in KI-Bildern – Warum KI-generierte Uhren (fast) nie die richtige Zeit anzeigen

Cartoonfigur mit Dampf über dem Kopf schaut wütend auf Monitor mit KI-generierten Uhren

KI-Bildgeneratoren wie DALL·E oder Stable Diffusion verblüffen mit ihrer Fähigkeit, realistisch wirkende Bilder aus Textbeschreibungen zu erzeugen. Doch sobald es um die Uhrzeit in KI-Bildern geht, wird es seltsam: Wer eine analoge Uhr mit einer bestimmten Uhrzeit – etwa 8:15 Uhr – erzeugen möchte, bekommt fast immer 10:10 angezeigt. Warum ist das so? Wer sich generell fragt, wie sehr wir KI vertrauen können, findet hier einen passenden Beitrag über Verantwortung und Identität in der KI-Welt.


Die 10:10-Falle: Ein Erbe der Werbefotografie

Wenn man „analoge Uhr“ in einen Bildgenerator eingibt, zeigt das Ergebnis fast immer die Zeit 10:10. Das hat einen ganz einfachen Grund:

In der Werbefotografie ist 10:10 die Standard-Zeit. Diese Stellung der Zeiger ist symmetrisch, wirkt wie ein „Lächeln“ und verdeckt weder Logo noch Datumsanzeige. Dadurch findet sich 10:10 auf einem überwältigenden Anteil der Trainingsdaten der KI.

Analoge Uhr, von einer KI generiert, zeigt 10:10 Uhr trotz Prompt für 8:15

Prompting hilft – aber nicht immer

Selbst wenn man präzise Prompts wie folgenden verwendet:

„A realistic analog clock, hour hand pointing slightly past the 8, minute hand pointing exactly at the 3, showing 8:15.“

… bekommt man in den meisten Fällen trotzdem eine Uhr mit 10:10 oder eine wild falsche Zeigerstellung. Die KI orientiert sich stärker an gelernten Bildmustern als an mathematischer Logik.


Stiländerung als Trick: Skizzen statt Realismus

Interessanterweise funktioniert die korrekte Darstellung der Uhrzeit in KI-Bildern besser, wenn der Stil weniger realistisch ist. Bei handgezeichneten oder cartoonhaften Uhren sind keine typischen Werbemuster verankert. Dadurch wird der Prompt wörtlicher genommen, und 8:15 sieht tatsächlich wie 8:15 aus.

Das zeigt: Die Trainingsdaten beeinflussen nicht nur das Aussehen, sondern auch die Interpretation von Textangaben.

Handgezeichnete analoge KI Uhr, zeigt korrekt 8:15 Uhr, per KI erzeugt

Wie man es trotzdem hinbekommt

Für alle, die tiefer ins Thema Prompting einsteigen möchten, lohnt sich ein Blick auf den Prompting Guide für DALL·E und Stable Diffusion – dort findest du praxisnahe Tipps zu Stilwahl, Zeigerpositionen und mehr.

✅ Variante 1: Exakte geometrische Beschreibung

Statt „8:15“ hilft oft die Beschreibung der Zeigerstellung:

„hour hand halfway between 8 and 9, minute hand pointing at 3“

Ergänzt um Stilwünsche wie „studio lighting“, „clear dial“ und „no glass reflection“.

✅ Variante 2: Bild als Vorlage

Wenn man der KI eine handgezeichnete Uhr mit der gewünschten Zeigerstellung zeigt, kann sie diese als Inspiration nutzen. Allerdings ist auch hier nicht garantiert, dass die Zeit exakt übernommen wird – besonders bei realistischen Umsetzungen.

💪 Die beste Methode: Stable Diffusion + ControlNet

Mit ControlNet lässt sich eine Skizze als Strukturvorgabe nutzen. Das Modell hält sich exakt an die Zeigerstellung und erzeugt ein stilistisch beliebiges Bild.

Tipp: Wer sich mit ControlNet auseinandersetzen möchte, findet hilfreiche Einstiegsvideos auf YouTube oder kann direkt mit einem leistungsstarken PC und einer passenden GPU loslegen. Eine gute Einsteiger-Grafikkarte ist zum Beispiel die NVIDIA GeForce RTX 3060 (bezahlter Link), kombiniert mit einem soliden Monitor wie dem BenQ PD2705Q (bezahlter Link) für präzise Farbdarstellung.

Wer lieber mobil arbeitet: Auch ein Zeichentablett wie das XP-Pen Deco 02 (bezahlter Link) kann bei der Erstellung von Skizzen für ControlNet hilfreich sein.


Fazit: KI ist (noch) kein Uhrmacher

Wer eine Uhrzeit in ein Bild bringen will, merkt schnell: KI denkt nicht wie ein Mensch. Sie sieht keine Logik, sondern Muster. Und wenn 10:10 in 95 % der Uhrenbilder vorkommt, dann ist das für die KI die „richtige“ Uhrzeit.

Aber mit den richtigen Tricks – oder etwas Bildbearbeitung – kann man der KI trotzdem die richtige Zeit beibringen. Man muss es ihr nur zeigen. Wort für Wort. Zeiger für Zeiger.


🗨️ Und jetzt bist du dran: Hast du schon mal versucht, eine bestimmte Uhrzeit per KI zu erzeugen? Welchen Prompt würdest du ausprobieren? Schreib’s mir in die Kommentare!


Kuriose Beispiele wie diese gibt’s viele – den Rundumschlag findest du hier: Künstliche Intelligenz verstehen und nutzen