Создание AI изображений и видео с помощью ComfyUI
Создание AI изображений и видео с помощью ComfyUI

Полная версия

Создание AI изображений и видео с помощью ComfyUI

Настройки чтения
Размер шрифта
Высота строк
Поля

Нейро Психолог

Создание AI изображений и видео с помощью ComfyUI

Введение Зачем нужна эта книга: для кого она написана

Эта книга создана для тех, кто хочет освоить ComfyUI – мощнейший инструмент для генерации изображений и видео с помощью искусственного интеллекта. Она будет полезна:

художникам и дизайнерам, желающим расширить творческие возможности за счёт AI‑технологий;

контент‑мейкерам и маркетологам, которым нужно быстро создавать визуальный контент;

разработчикам и техноэнтузиастам, изучающим современные AI‑решения;

начинающим пользователям, которые только знакомятся с генеративными моделями;

профессионалам, желающим перейти от простых интерфейсов к гибким рабочим процессам.

Книга даёт пошаговые инструкции, объясняет ключевые концепции и предлагает практические кейсы – от первых экспериментов до сложных проектов.

Что такое ComfyUI: краткая история и ключевые особенности

ComfyUI – это графический интерфейс для работы с моделями Stable Diffusion и другими диффузионными нейросетями. В отличие от традиционных приложений, он построен на визуальном программировании: пользователь соединяет узлы (nodes) в рабочий процесс (workflow), настраивая каждый этап генерации.

Краткая история:

– Проект стартовал как альтернативный интерфейс для Stable Diffusion, ориентированный на гибкость и модульность.

– Изначально разрабатывался для технических пользователей, но со временем стал доступнее благодаря сообществу.

– Сегодня поддерживается активной группой разработчиков и имеет обширную библиотеку пользовательских узлов.

Ключевые особенности:

– Визуальный workflow: вместо текстовых настроек – наглядные соединения между узлами.

– Модульность: можно добавлять, удалять и перестраивать блоки генерации.

– Поддержка множества моделей: Stable Diffusion, AnimateDiff, SVD и др.

– Расширяемость: возможность устанавливать кастомные узлы через менеджер дополнений.

– Оптимизация ресурсов: эффективное использование видеопамяти (VRAM) даже на слабых GPU.

Чем ComfyUI отличается от других инструментов (AUTOMATIC1111 и др.)

Наиболее популярный аналог – AUTOMATIC1111's WebUI – предлагает удобный интерфейс с вкладками и готовыми настройками. Однако у ComfyUI есть принципиальные отличия:

1. Гибкость vs. простота

– AUTOMATIC1111: идеален для быстрого старта, но ограничивает тонкую настройку.

– ComfyUI: требует времени на освоение, но позволяет создавать сложные пайплайны (например, каскадную генерацию с промежуточными этапами).

2. Визуализация процесса

– В AUTOMATIC1111 параметры задаются в формах, а логика генерации скрыта.

– В ComfyUI видно, как данные проходят через узлы, – это помогает понимать и отлаживать процесс.

3. Расширяемость

– AUTOMATIC1111 поддерживает расширения, но их интеграция менее интуитивна.

– ComfyUI позволяет легко подключать новые узлы, создавая уникальные комбинации (например, объединение ControlNet с AnimateDiff).

4. Ресурсоэффективность

– ComfyUI лучше оптимизирован для работы с большими моделями и видео благодаря кэшированию и управлению памятью.

Основные преимущества работы с визуальными рабочими процессами

1. Прозрачность: каждый шаг генерации виден на схеме – легко найти и исправить ошибки.

2. Повторное использование: сохранённые workflows можно применять для новых проектов с минимальными изменениями.

3. Эксперименты без риска: добавление или удаление узлов не ломает весь процесс – можно тестировать идеи «на лету».

4. Автоматизация: сложные последовательности (например, img2img → upscale → inpainting) выполняются одним кликом.

5. Обучение: визуальная схема помогает понять, как взаимодействуют модели и параметры.

Как устроена книга: структура и логика изложения

Книга построена по принципу «от простого к сложному» и разделена на пять частей:

1. Основы работы с ComfyUI

– Установка, интерфейс, первые генерации.

– Базовые понятия: узлы, соединения, параметры.

2. Углублённая работа с изображениями

– Техники img2img, outpainting, inpainting.

– Повышение качества, работа с embeddings.

3. Генерация видео

– AnimateDiff и Stable Video Diffusion.

– Настройка анимации, экспорт результатов.

4. Продвинутые техники

– Комбинированные workflows, оптимизация, автоматизация.

– Использование ControlNet и кастомных узлов.

5. Практика и кейсы

– Реальные проекты: от иллюстраций до видео для соцсетей.

– Решение типичных проблем.

В конце приведены приложения с шаблонами, глоссарием и ссылками на ресурсы. Каждый раздел содержит практические задания и примеры workflows, которые можно скачать и адаптировать под свои задачи.

Цель книги – не просто научить пользоваться ComfyUI, а дать инструменты для творческого эксперимента и эффективного внедрения AI в рабочий процесс.

Глава 1. Установка и настройка

1.1. Системные требования и подготовка окружения

Для стабильной работы ComfyUI необходимо убедиться, что ваше оборудование и ПО соответствуют минимальным требованиям.

Аппаратные требования:

– GPU: предпочтительно NVIDIA с поддержкой CUDA (серии RTX 30xx/40xx). Для базовых задач – не менее 8 ГБ видеопамяти; для видеогенерации – 12 ГБ и выше.

– Оперативная память (RAM): минимум 16 ГБ (рекомендуется 32 ГБ+).

– Накопитель: SSD объёмом от 500 ГБ (модели занимают 2–10 ГБ каждая, промежуточные файлы – до десятков ГБ).

– Процессор: современный многоядерный CPU (для фоновых задач и CPU‑генерации).

Программные требования:

– ОС: Windows 10/11 (64‑бит), Linux (Ubuntu 20.04+, Debian 11+), macOS (с ограничениями).

– Драйверы: актуальные драйверы GPU (NVIDIA GeForce Driver ≥ 550 для Windows).

– Python: версия 3.10–3.11 (включена в портативные сборки).

– Git (для ручной установки/обновления).

Подготовка окружения (Windows):

1. Обновите драйверы видеокарты через официальный сайт NVIDIA.

2. Убедитесь, что на диске достаточно места (минимум 20 ГБ для ComfyUI модели).

3. Отключите антивирус на время установки (может блокировать загрузку моделей).

Подготовка окружения (Linux):

1. Установите Python и Git:

```bash

sudo apt update && sudo apt install python3 python3-pip git

```

2. Настройте права доступа к папке установки.

1.2. Скачивание и установка ComfyUI

Вариант 1. Портативная версия (рекомендуется для Windows)

1. Перейдите на страницу релизов: [github.com/comfyanonymous/ComfyUI/releases](https://github.com/comfyanonymous/ComfyUI/releases).

2. Скачайте архив, соответствующий вашей видеокарте:

– `ComfyUI_windows_portable_amd.7z` – для AMD;

– `ComfyUI_windows_portable_nvidia.7z` – для старых NVIDIA (CUDA 12.1–12.4);

– `ComfyUI_windows_portable_nvidia_cu128.7z` – для новых NVIDIA (CUDA 12.8).

3. Распакуйте архив в любую папку (например, `C:\ComfyUI`).

Вариант 2. Ручная установка (Windows/Linux)

1. Установите Python 3.10–3.11 и Git.

2. Откройте терминал и выполните:

```bash

git clone https://github.com/comfyanonymous/ComfyUI.git

cd ComfyUI

python -m pip install torch torchvision torchaudio

python -m pip install -r requirements.txt

```

Для macOS:

– Используйте Docker или установите через Homebrew (требует дополнительных настроек CUDA).

1.3. Настройка путей к моделям и ресурсам

После установки необходимо указать ComfyUI, где искать модели и вспомогательные файлы.

Структура папок по умолчанию:

```

ComfyUI/

├── models/

│ ├── checkpoints/ Основные модели (SD 1.5, SDXL и др.)

│ ├── loras/ LoRA‑адаптеры

│ ├── text_encoders/ Текстовые кодировщики (T5, CLIP)

│ ├── vae/ VAE‑модели для декодирования

│ └── controlnet/ Модели ControlNet

├── input/ Входные изображения

└── output/ Выходные файлы

```

Как добавить модели:

1. Скачайте модели с платформ:

– [Hugging Face](https://huggingface.co)

– [Civitai](https://civitai.com)

– Официальные репозитории (например, Stability AI).

2. Поместите файлы в соответствующие подпапки `models/`.

Пример:

– Модель SDXL: `models/checkpoints/sdxl_1.0.safetensors`

– VAE: `models/vae/vae-ft-mse-840000-ema-pruned.safetensors`

Настройка в интерфейсе:

1. Запустите ComfyUI (см. раздел 1.4).

2. В меню Settings → Paths проверьте пути к папкам.

3. При необходимости измените их через файл `extra_model_paths.yaml` (пример шаблона есть в папке `ComfyUI/`).

1.4. Первый запуск и проверка работоспособности

Запуск (Windows):

1. Откройте папку с ComfyUI.

2. Запустите файл:

– `run_nvidia_gpu.bat` – для NVIDIA;

– `run_cpu.bat` – если нет GPU (медленно!).

3. Дождитесь сообщения в консоли:

```

To see the GUI go to: http://127.0.0.1:8188

```

4. Откройте браузер и перейдите по ссылке.

Запуск (Linux):

1. В терминале выполните:

```bash

cd ~/путь/к/ComfyUI

source venv/bin/activate

python main.py

```

2. Перейдите в браузере на `http://127.0.0.1:8188`.

Проверка работоспособности:

1. В интерфейсе выберите Load Default (загрузит базовый workflow).

2. В узле Checkpoint Loader выберите установленную модель (например, `sdxl_1.0`).

3. Введите простой промпт в CLIP Text Encode:

```

a cat sitting on a bench

```

4. Нажмите Queue Prompt (кнопка в правом верхнем углу).

5. Если генерация началась и через 1–2 минуты появилось изображение – установка успешна.

Типичные проблемы и решения:

– «Model not found» – проверьте путь к модели в `models/checkpoints/`.

– «CUDA out of memory» – снизите разрешение или используйте модель меньшего размера.

– «Browser can’t connect» – убедитесь, что консоль ComfyUI запущена и порт 8188 не занят.

– «Missing dependencies» – перезапустите установку через `pip install -r requirements.txt`.

Совет: Сохраните рабочий workflow после первой успешной генерации (меню Save), чтобы быстро возвращаться к настройкам.

Глава 2. Интерфейс и базовые понятия

2.1. Обзор главного окна и панели инструментов

После запуска ComfyUI вы видите главное окно, состоящее из нескольких ключевых зон:

1. Рабочее пространство (Workspace) – центральная область с сеткой, где размещаются и соединяются узлы (nodes). Поддерживает:

– масштабирование (колесико мыши);

– перемещение (удерживание средней кнопки мыши или пробела);

– бесконечную прокрутку.

2. Верхняя панель инструментов (Top Toolbar) – кнопки:

– Load Workflow – загрузка сохранённого рабочего процесса;

– Save – сохранение текущего workflow в JSON;

– Clear – очистка рабочего пространства;

– Queue Prompt – запуск генерации;

– History – просмотр истории выполненных задач.

3. Левая боковая панель (Left Sidebar) – быстрый доступ к узлам:

– Load Checkpoint (загрузка модели);

– CLIP Text Encode (кодирование текста);

– KSampler (генерация изображения);

– поиск узлов по ключевым словам.

4. Правая панель (Right Panel) – два режима:

– Node Properties – настройки выбранного узла;

– Queue Manager – мониторинг очереди задач.

5. Вкладки в левом верхнем углу – переключение между:

– Assets (загруженные изображения и результаты);

– Queue (история генераций);

– Workflows (сохранённые шаблоны);

– Templates (готовые рабочие процессы).

2.2. Что такое узлы (nodes) и края (edges)

Узлы (nodes) – это функциональные блоки, выполняющие конкретные операции. Каждый узел имеет:

– входные порты (слева) – принимают данные;

– выходные порты (справа) – передают результаты;

– настройки (в правой панели) – параметры работы.

Примеры узлов:

– Load Checkpoint – загружает модель Stable Diffusion;

– CLIP Text Encode – преобразует текст в числовые векторы;

– KSampler – генерирует изображение из шума.

Края (edges) – линии, соединяющие выходы одного узла со входами другого. Они:

– передают данные между узлами;

– определяют последовательность операций;

– окрашены в разные цвета (например, зелёный – модели, синий – изображения).

2.3. Основные типы узлов

1. Загрузка моделей

– Load Checkpoint – подключает основную модель (например, `sdxl_1.0.safetensors`).

– Load LoRA – добавляет адаптеры для стилизации.

2. Кодирование текста

– CLIP Text Encode (Positive) – вводит желаемый контент (промпт).

– CLIP Text Encode (Negative) – исключает нежелательные элементы.

3. Генерация

– KSampler – основной узел для создания изображения. Настраивается:

– steps (число шагов диффузии);

– CFG scale (сила влияния промпта);

– seed (инициализатор шума).

4. VAE (Variational Autoencoder)

– VAE Decode – преобразует латентное представление в пиксельное изображение;

– VAE Encode – сжимает изображение в латентное пространство.

5. Работа с изображениями

– Load Image – импорт исходного файла;

– Save Image – экспорт результата;

– Upscale Model – повышение разрешения.

6. Контроль композиции

– ControlNet – добавляет позы, контуры или стили через референс.

2.4. Создание простейшего соединения между узлами

Пошаговая инструкция для базовой генерации:

1. Добавьте узлы:

– Двойной клик по рабочему пространству → введите Load Checkpoint → выберите модель.

– Добавьте CLIP Text Encode (Positive) и CLIP Text Encode (Negative).

– Разместите KSampler и VAE Decode.

– Подключите Save Image.

2. Соедините узлы:

– Выход MODEL из Load Checkpoint → вход MODEL у KSampler.

– Выход COND из CLIP Text Encode (Positive) → вход POSITIVE у KSampler.

– Выход LATENT из KSampler → вход LATENT у VAE Decode.

– Выход IMAGE из VAE Decode → вход IMAGE у Save Image.

3. Настройте параметры:

– В CLIP Text Encode (Positive) введите: `a cat sitting on a bench`.

– В KSampler установите: steps=20, CFG scale=7.5.

4. Запустите генерацию:

– Нажмите Queue Prompt на верхней панели.

– Результат появится в узле Save Image.

2.5. Масштабирование, перемещение и организация рабочего пространства

Масштабирование:

– Колесико мыши – увеличение/уменьшение масштаба.

– Reset View (в верхней панели) – возвращение к исходному виду.

Перемещение:

– Удерживайте среднюю кнопку мыши или пробел – перетаскивайте рабочую область.

– Клавиши стрелок – точное позиционирование.

Организация узлов:

– Перетаскивайте узлы за заголовок для перемещения.

– Правый клик по узлу → Collapse (свернуть) или Delete (удалить).

– Группируйте связанные узлы визуально (например, блок промпта отдельно от генерации).

– Используйте Comment‑узлы для пометок.

Советы по удобству:

– Сохраняйте часто используемые workflows как шаблоны.

– Для сложных процессов разделяйте рабочее пространство на логические блоки.

– Включайте Grid (в настройках правой панели) для выравнивания узлов.

Глава 3. Первые генерации: текст → изображение

3.1. Выбор модели Stable Diffusion (checkpoint)

Модель (checkpoint) – основа качества и стиля генерации. От неё зависят:

разрешение и детализация;

соответствие промпту;

характерные художественные особенности.

Где искать модели:

Hugging Face (huggingface.co) – официальные релизы Stability AI;

Civitai (civitai.com) – пользовательские модели с фильтрами по жанрам;

GitHub‑репозитории разработчиков.

Популярные типы:

SD 1.5 – базовая версия, совместимая с большинством LoRA и ControlNet;

SDXL 1.0 – улучшенное качество, поддержка 1024×1024;

Anime models (например, Anything V5) – стилизация под аниме;

Realistic models (например, Realistic Vision) – фотореализм.

Как загрузить:

1. Скачайте файл модели (формат `.safetensors` или `.ckpt`).

2. Поместите в папку: `ComfyUI/models/checkpoints/`.

3. В узле Load Checkpoint выберите модель из выпадающего списка.

Совет: Начните с SDXL 1.0 – она даёт хороший баланс качества и скорости.

3.2. Ввод положительного и отрицательного промпта

Положительный промпт (Positive Prompt) – описание желаемого результата.

Структура:

1. Главный объект (например, a knight).

2. Детали (например, in shining armor, holding a sword).

3. Стиль (например, digital art, cinematic lighting).

4. Композиция (например, full body, medium shot).

Пример:

```

a steampunk airship flying over a city at sunset, detailed mechanical parts, warm orange glow, cinematic composition

```

Отрицательный промпт (Negative Prompt) – исключение нежелательных элементов.

Типичные исключения:

`ugly, blurry, low quality, extra fingers, mutated hands`;

`text, watermark, signature`;

`deformed, distorted, disfigured`.

Как ввести:

1. В узле CLIP Text Encode (Positive) вставьте положительный промпт.

2. В узле CLIP Text Encode (Negative) – отрицательный.

Лайфхак: Сохраните шаблоны промтов в текстовых файлах для повторного использования.

3.3. Настройка параметров генерации

Основные параметры в узле KSampler:

1. Steps (шаги)

Диапазон: 15–50.

Рекомендация: 20–30 для SDXL, 25–40 для SD 1.5.

Больше шагов – лучше детали, но дольше генерация.

2. Sampler (семплер)

Популярные варианты:

`Euler a` – быстрый, подходит для эскизов;

`DPM+2M` – баланс качества и скорости;

`LMS` – мягкие переходы.

Экспериментируйте для разных стилей.

3. CFG Scale (Classifier‑Free Guidance)

Диапазон: 3–15.

Рекомендация: 7–9 для SDXL, 6–8 для SD 1.5.

Выше значение – строже следование промпту, но риск артефактов.

4. Seed (инициализатор)

Фиксированное число (например, `42`) – повторение результата.

`-1` – случайный seed для вариативности.

5. Width & Height (размеры)

SD 1.5: кратно 64 (например, 512×768).

SDXL: кратно 32 (например, 1024×768).

Дополнительные настройки:

Denoise (0.7–0.95) – сила изменения при img2img;

Batch size – количество изображений за раз (требует VRAM).

3.4. Запуск процесса и анализ результата

Запуск:

1. Проверьте соединения узлов (см. Главу 2.4).

2. Нажмите Queue Prompt на верхней панели.

3. Наблюдайте прогресс в Queue Manager (правая панель).

Анализ результата:

Соответствие промпту: Есть ли ключевые объекты и детали?

Качество: Чёткость, отсутствие артефактов (двойные глаза, искажённые руки).

Стиль: Соответствует ли заявленному жанру (например, аниме vs. фотореализм)?

Композиция: Правильные пропорции и расположение объектов.

Если результат неудовлетворительный:

1. Увеличьте Steps или смените Sampler.

2. Уточните промпт (добавьте деталей или исключите лишнее).

3. Поэкспериментируйте с CFG Scale (±2).

4. Проверьте модель – возможно, она не подходит для задачи.

3.5. Сохранение и экспорт изображений

Варианты экспорта:

1. Через узел Save Image:

Подключите выход IMAGE из VAE Decode к Save Image.

В настройках укажите:

Путь сохранения (по умолчанию: `ComfyUI/output/`);

Формат (PNG, JPEG);

Качество (для JPEG: 80–95%).

2. Через интерфейс:

Кликните на изображение в узле Save Image.

В контекстном меню выберите Save As….

Укажите имя и формат.

3. Массовое сохранение:

Используйте Batch Save (если доступно в вашем workflow).

Настройте нумерацию файлов (например, `image_001.png`).

Рекомендации по форматам:

PNG – для прозрачности и максимального качества (без потерь).

JPEG – для веб‑публикации (меньший размер файла).

TIFF – для печати (требуется дополнительный узел).

Организация файлов:

Создавайте подпапки по темам (например, `fantasy/`, `portraits/`).

Используйте понятные имена (например, `steampunk_airship_v2.png`).

Сохраняйте JSON‑файл workflow вместе с изображениями – это позволит повторить генерацию.

Важно: Не удаляйте модели из папки `checkpoints/` до завершения работы над проектом – иначе ComfyUI не сможет восстановить процесс.

Глава 4. Изображение → изображение (img2img)

4.1. Загрузка исходного изображения

Для работы в режиме img2img требуется исходное изображение, которое будет трансформироваться согласно промпту и настройкам.

Способы загрузки:

1. Через узел Load Image:

– перетащите файл в окно ComfyUI;

– выберите файл через диалоговое окно узла;

– укажите путь к изображению в настройках узла.

2. Через буфер обмена:

– скопируйте изображение (Ctrl+C);

– в ComfyUI нажмите правой кнопкой мыши на рабочем пространстве → Paste Image.

Требования к исходному изображению:

– формат: PNG, JPEG, TIFF;

– разрешение: желательно не ниже 512×512 (для SD 1.5) или 1024×1024 (для SDXL);

– качество: минимум артефактов сжатия, чёткие контуры.

Рекомендации:

– для экспериментов используйте собственные фото или качественные референсы;

– сохраняйте оригинал перед обработкой;

– для стилизации подойдут эскизы или наброски.

4.2. Настройка силы воздействия (denoising strength)

Denoising strength – ключевой параметр, определяющий степень изменения исходного изображения.

Диапазон значений: от 0.0 до 1.0

Эффекты в зависимости от значения:

– 0.0–0.2 – минимальные правки (лёгкая ретушь, цветокоррекция);

– 0.3–0.5 – умеренная трансформация (смена стиля, добавление деталей);

– 0.6–0.8 – существенные изменения (полная смена композиции, замена объектов);

– 0.9–1.0 – почти полная генерация «с нуля» (исходник служит лишь подсказкой).

Как настроить:

1. В узле KSampler найдите параметр denoising strength.

2. Введите значение (например, 0.4).

3. Запустите генерацию и оцените результат.

Советы по подбору:

– начните с 0.4–0.5 для баланса между сохранением и изменением;

– повышайте значение, если нужно сильнее отойти от оригинала;

– снижайте, если важно сохранить детали (например, лицо на портрете).

4.3. Работа с масками и локальными изменениями

Маски позволяют точечно контролировать область применения изменений.

Типы масок:

1. Автоматическая (через ControlNet):

– использует контуры или позу из исходного изображения;

– настраивается в узле ControlNet.

2. Ручная (создаётся в ComfyUI или внешнем редакторе):

– чёрно‑белое изображение, где белый = изменение, чёрный = сохранение;

– загружается через узел Load Mask.

Создание ручной маски в ComfyUI:

1. Добавьте узел Create Mask (если доступен).

2. Настройте параметры:

– threshold (порог контраста);

– blur (размытие границ).

3. Соедините с узлом KSampler через вход mask.

Использование маски:

1. Загрузите маску через Load Mask или Load Image (если она в градациях серого).

2. Подключите выход MASK к входу mask в KSampler.

3. Установите denoising strength отдельно для маскированной области (если поддерживается).

Примеры применения масок:

– замена фона (маска на объект);

– ретушь лица (маска на проблемные зоны);

– добавление деталей (маска на пустую область).

4.4. Примеры: стилизация, ретушь, изменение деталей

1. Стилизация под художественный жанр

Цель: превратить фото в картину маслом.

Действия:

– загрузите фото через Load Image;

– в CLIP Text Encode (Positive) введите: `oil painting of a woman in a red dress, impressionist style, thick brushstrokes`;

– установите denoising strength = 0.6;

– запустите генерацию.

Результат: сохранена композиция, но добавлен художественный стиль.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Конец ознакомительного фрагмента
Купить и скачать всю книгу