Введение
Одной из самых впечатляющих способностей генеративного искусственного интеллекта, на мой взгляд, является его умение создавать уникальные и невероятные изображения. Эти изображения могут быть воплощением трехмерного мира фантастического будущего в компьютерной игре или быть виртуальной симуляцией окружающего нас мира. Изображения могут быть трехмерными или двумерными, а также могут быть выполнены в различных стилях живописи знаменитых художников разных эпох. Но самое интересное то, что на этих изображениях могут появиться существа или предметы, не существующие в нашем мире, которые тем не менее можно материализовать, добавив текстовое описание в программу Stable Diffusion WebUI Forge и создать нечто новое.
Stable Diffusion WebUI Forge — это совершенно бесплатная программа, которую вы можете загрузить и установить на свой компьютер. Она устроена таким образом, что в нее без особого труда можно добавлять различные модули, которые расширяют ее функциональные возможности. Одними из таких модулей являются модели, при помощи которых создаются изображения.
Сейчас наиболее популярными моделями являются Stable Diffusion, Midjourney и DALL-E. Но, не так давно, появилась невероятно мощная модель FLUX.1.
В середине 2024 года модель FLUX.1 стала прорывной технологией в генеративном искусственном интеллекте, оставив позади себя все остальные модели от лидеров рынка. Десятки интернет-сервисов стали рекомендовать ее как наиболее производительную и эффективную при создании изображений. И, как вы уже поняли, именно этой модели уделяется основное внимание в этой книге.
Модель FLUX.1 была создана бывшими инженерами из компании Stability AI, которые занимались разработкой и развитием знаменитой модели Stable Diffusion. Робин Ромбах (Robin Rombach), Андреас Блаттманн (Andreas Blattmann), Доминик Лоренца (Dominik Lorenz) и Патрик Эссер (Patrick Esser) объединили свои усилия в работе над новым проектом FLUX.1 и создали новую компанию Black Forest Lab.
Black Forest Lab изначально предложила нам три версии модели FLUX.1:
— FLUX.1 [pro] — самая мощная версия реализация коммерческой модели, доступная к использованию через API у партнеров компании или в индивидуальном порядке.
— FLUX.1 [dev] — немного облегченный вариант первой модели не для коммерческого использования. Варианты реализации модели можно найти на сайте huggingface.
— FLUX.1 [schnell] — самая быстрая реализация модели с открытым исходным кодом, которая так и называется «быстрая / нем. schnell». Она предназначена для использования на локальных компьютерах. Исходный код модели можно найти на сайте GitHub. Варианты ее реализации можно найти на сайте huggingface.
По очень смелой оценке инженеров Black Forest Lab, данная модель более производительна, чем все разновидности модели Stable Diffusion, Midjourney и DALL-E.
Не прошло и полгода, как Black Forest Lab анонсировала выход еще более мощной версии своей модели FLUX1.1 [pro], которая стала значительно эффективнее предыдущей версии. Она уже доступна на следующих сервисах: Together.ai, Replicate, fal.ai и Freepik.
С помощью этой книги вы познакомитесь с системой генеративного искусственного интеллекта Stable Diffusion WebUI Forge и невероятно мощной моделью FLUX.1 как инструментом творчества.
Вы сможете самостоятельно установить, настроить и удалить совершенно бесплатную программу Stable Diffusion WebUI Forge на свой компьютер, а также подключить к ней различные дополнительные модели FLUX.1.
Но, и самое главное, управляя различными функциями и параметрами через удобный пользовательский интерфейс Stable Diffusion WebUI Forge, вы научитесь создавать уникальные и совершенно неповторимые изображения, которые сможете использовать в своей учебе, работе или для развлечений.
Приятного вам чтения и продуктивной работы!
Ваш Александр Чесалов.
Несколько важных вопросов
Какая цель книги?
Книга «Генеративный искусственный интеллект #Forge&flux. Инструкция по установке и настройке» написана как пособие для всех тех, кто хочет получить знания и опыт по работе с системой генеративного искусственного интеллекта Stable Diffusion WebUI Forge.
С помощью этой книги вы получите базовый навык по установке бесплатной программы Stable Diffusion WebUI Forge и созданию вашего первого цифрового произведения искусства.
Не имеет никакого значения, какой у вас опыт работы с компьютером. Не важно, насколько вы погружены в тему искусственного интеллекта, не важно, владеете ли вы навыками программирования, имеет значение только ваше желание познавать новое и создавать невероятное. Для обучения достаточно базового уровня английского языка и знаний компьютера.
Электронная версия этой книги абсолютно бесплатна.
Для того, чтобы расширить свои знания и приобрести практический опыт, вам понадобится книга «Генеративный искусственный интеллект #Forge&flux. Учебное пособие для школьников старших классов и студентов первых курсов вузов».
Почему в названии книги используется хештег #FORGE&FLUX?
Я придумал хештег «#FORGE&FLUX», который действительно стал частью названия серии книг. Это было сделано потому, что многие издатели требуют от авторов книг подтверждения использования наименования программы в заголовке книги от разработчиков-правообладателей таких программ. Другими словами, чтобы использовать «Stable Diffusion WebUI Forge» в названии книги, мне нужно разрешение от разработчика. Поэтому и был придуман такой хештег, который позволил обойтись без ненужных формальностей.
Для другой своей книги «Невероятный искусственный интеллект Easy Diffusion 3.0» я такое разрешение от разработчика получил, но это заняло немало времени.
Кому принадлежат права на созданные мной изображения?
Споры по этому вопросу не утихают. Однозначного ответа нет.
Тем не менее, чтобы ответить на этот вопрос, приведу конкретный пример.
На то, чтобы написать полную книгу «Генеративный искусственный интеллект #Forge&flux. Учебное пособие для школьников старших классов и студентов первых курсов вузов» и подготовить эту инструкцию, у меня ушло шесть месяцев. За это время был выполнен огромный объем работы: изучено много источников информации; самостоятельно приобретены новые знания и опыт; потрачены недели на работу по созданию уникальных изображений; дни, ночи, выходные ушли на написание и редактирование текста. И самое главное, все это нужно было грамотно «упаковать» в книгу простым и доступным языком.
Исходя из личного опыта, я считаю, что процесс создания изображений при помощи систем генеративного искусственного интеллекта является не только творческим, но и интеллектуальным, и эмоциональным процессом. Этот процесс требует от человека высокой степени погружения в предметную область исследований, высокой самоотдачи, концентрации и работоспособности. На сегодняшний день и в ближайшие десятилетия ни один искусственный интеллект не способен и не будет способен на такое.
Когда меня спрашивают: а кому принадлежат результаты интеллектуальной собственности на подобные цифровые произведения? Я всегда отвечаю однозначно — человеку. Система генеративного искусственного интеллекта — это лишь инструмент воплощения творческих, технических и иных способностей человека. Любые спекуляции на тему, что искусственный интеллект — это нечто живое, являются фантазиями одних людей и некомпетентностью других.
Где можно познакомиться с другими работами автора?
Результаты работ, созданные при помощи разных систем генеративного искусственного интеллекта (для меня принципиально важным моментом в этом процессе является использование бесплатных систем, которые можно установить на свой компьютер), я опубликовал в книгах:
— «Невероятный искусственный интеллект Easy Diffusion 3.0». С помощью этой книги и системы генеративного искусственного интеллекта Easy Diffusion 3.0 вы научитесь создавать уникальные и неповторимые изображения, которые сможете использовать в своей учебе или для развлечений. Книга содержит познавательную информацию о существующих видах искусственного интеллекта и прекрасный альбом из более чем ста иллюстраций.
— «Сказки старой Твери: фауна лесных духов». Этот альбом иллюстраций позволит вам и вашим детям осуществить головокружительное путешествие в яркий мир сказочных образов. В нем вы увидите более 300 потрясающих изображений невероятных животных сказочного леса, которых, к сожалению, невозможно встретить в нашем реальном мире.
— «Сказки старой Твери: ночь лесных духов». Этот альбом иллюстраций не только история о творчестве и технологиях, но и глубокое погружение в яркий мир образов славянской мифологии, которое позволит читателю увидеть древних богов и духов в новом свете.
— «Сказки старой Твери: черти». Этот альбом из более 300 невероятно красивых иллюстраций позволит вам погрузиться в сказочную атмосферу мифических существ. Возможности искусственного интеллекта и творческий потенциал человека позволили воплотить в этой книге в реальность собирательные образы чертей и представить их фантастические и фотореалистичные изображения.
Инструкция по установке и настройке Stable Diffusion WebUI Forge
Шаг 1. Установка Stable Diffusion WebUI Forge
Для того чтобы определиться с выбором сборки (или дистрибутива), нам необходимо с вами получить нужную информацию от нашей операционной системы, чтобы узнать версию CUDA (Compute Unified Device Architecture).
CUDA — это технология, работающая на базе программно-аппаратной архитектуры, которая позволяет повысить производительность параллельных вычислений. Параллельные вычисления — это вычисления, при которых процесс разработки программного обеспечения делится на потоки. Потоки обрабатываются параллельно и взаимодействуют между собой в процессе обработки. Технология CUDA поддерживается процессорами видеокарт NVIDIA, которые используют системы генеративного искусственного интеллекта для создания различного контента.
Для определения версии CUDA в строке поиска наберем и выполним команду cmd, как показано на рисунке ниже:
После того как вы выполните команду cmd, нажав кнопку Enter на клавиатуре, перед вами откроется консоль для ввода пользователем текстовых команд.
В ней вам нужно ввести команду nvidia-smi и нажать Enter.
В результате вы увидите следующую таблицу, где справа сверху будет написана версия CUDA:
После чего вы открываете свой интернет-браузер и переходите на страницу: https://github.com/lllyasviel/stable-diffusion-webui-forge?tab=readme-ov-file, где ближе к середине страницы находите ссылку на файл дистрибутива.
В зависимости от версии CUDA выбираете ссылку для скачивания, как показано на рисунках ниже.
Для вашего удобства я ее перевел:
У меня версия CUDA 12.2, поэтому я выбираю первую ссылку для скачивания.
После чего на ваш компьютер загрузится архивный файл webui_forge_cu121_torch231.7z.
Для его распаковки вам понадобится архиватор 7z, который можно скачать бесплатно, или Zip-архиватор.
Внутри архива вы увидите следующие папки:
Создайте на любом диске, где у вас есть достаточно места, папку с названием «Stable Diffusion WebUI Forge» и распакуйте содержимое архивного файла в эту папку (например, у меня файлы находятся по следующему пути: D:\Stable Diffusion WebUI Forge).
Нужно отметить, что для программы Stable Diffusion WebUI Forge нужно 6,5 Гбайт дискового пространства, а для моделей FLUX.1 — еще 50 Гбайт.
Но это еще не предел!
Постарайтесь найти на диске не менее 200 Гбайт свободного пространства, потому что в дальнейшем мы будем устанавливать дополнительные модули и модели для расширения функциональных возможностей системы.
После распаковки файлов в папку «Stable Diffusion WebUI Forge» программа Stable Diffusion WebUI Forge полностью установлена на ваш компьютер.
Но пока что не спешите ее запускать. Нам еще нужно сделать два важных действия, о которых речь пойдет дальше.
Шаг 2. Установка модели FLUX.1
После установки системы Stable Diffusion WebUI Forge, которая обеспечит нам удобный интерфейс и работу с большим числом различных функций и параметров, нам теперь необходимо скачать файл нужной нам версии модели FLUX.1, которая бы быстро и качественно работала на нашем компьютере.
Напомню вам, что есть три основные версии модели, созданные разработчиками Black Forest Lab:
— FLUX.1 [pro] — самая мощная версия реализация коммерческой модели, доступная к использованию только через API у партнеров компании Black Forest Lab или в индивидуальном порядке.
— FLUX.1 [dev] — немного облегченный вариант первой модели не для коммерческого использования. Варианты реализации модели можно найти на сайте huggingface.co. Она может быть использована на локальных компьютерах.
Сайт с моделью от разработчика: https://huggingface.co/black-forest-labs/FLUX.1-dev.
— FLUX.1 [schnell] — самая быстрая реализация модели с открытым исходным кодом, которая так и называется: «быстрая, шнель / нем. schnell». Она предназначена для использования на локальных компьютерах. Исходный код можно найти на сайте GitHub. Варианты реализации модели можно найти сайте huggingface.co.
Сайт с моделью от разработчика: https://huggingface.co/black-forest-labs/FLUX.1-schnell.
Несомненно, нужно начинать свою работу с установки и тестирования той из них, которая будет соответствовать производительности вашего компьютера и будет создавать изображения максимального качества для вас.
На самом деле, версий модели FLUX от сторонних разработчиков уже достаточно много.
Но для того чтобы нам быстро перейти к от теории к практике, мы возьмем за основу уже подготовленные модели, которые называются «nf4-модели».
Nf4-модели — это полноценные FLUX-модели, которые не требуют установки дополнительных компонент для Stable Diffusion WebUI Forge и помогают нам создавать очень красивые изображения. Они отличаются от стандартных моделей FLUX используемым в них методом nf4-квантования (о чем скажу чуть позже), меньшим размером исходного файла, что хорошо для менее производительных видеокарт.
Существует несколько версий уже подготовленных файлов моделей FLUX.1 [dev] и FLUX.1 [schnell] от разных разработчиков. Рассмотрим некоторые из них, которые наиболее стабильно работают (от разработчиков silveroxides и lllyasviel).
Готовый файл самой быстрой модели FLUX.1 [schnell] для не очень мощных компьютеров с видеокартами предыдущих поколений (например, как у меня NVIDIA GTX 980 с 4 Гбайтами видеопамяти) называется flux1-schnell-bnb-nf4.safetensors. Я протестировал работу этого файла, и он показал себя очень хорошо при создании различных изображений.
Скачать файл можно по следующей ссылке: https://huggingface.co/silveroxides/flux1-nf4-weights/tree/main.
Если у вас видеокарта серии NVIDIA GTX 10XX/20XX или более новая, то вам необходимо скачать следующий файл модели flux1-dev-bnb-nf4-v2.safetensors по следующей ссылке: https://huggingface.co/lllyasviel/flux1-dev-bnb-nf4/tree/main.
По заявлению разработчика, модель второй версии flux1-dev-bnb-nf4-v2.safetensors работает быстрее, но она чуть больше по размеру файла.
Если у вас видеокарта серии NVIDIA RTX 30xx/40xx, то вы можете скачать файл модели flux1-dev-fp8.safetensors по следующей ссылке:
https://huggingface.co/lllyasviel/flux1_dev/blob/main/flux1-dev-fp8.safetensors.
Если вы обратите внимание, файл этой реализации модели значительно больше остальных по своему размеру, да и как показывает практика flux1-dev-bnb-nf4-v2.safetensors — это лучший выбор для учебы и творчества.
Таким образом, вы загрузили для себя один (или несколько) из необходимых фалов модели FLUX.1.
Модель FLUX.1 [schnell]:
— файл flux1-schnell-bnb-nf4.safetensors;
Модель FLUX.1 [dev]:
— файл flux1-dev-bnb-nf4-v2.safetensors;
— файл flux1-dev-bnb-nf4.safetensors);
— файл flux1-dev-fp8.safetensors.
Теперь загруженный файл (или файлы) модели нам нужно переместить в папку моделей «Stable-diffusion».
Например, эта папка у меня находится по следующему пути: D:\Stable Diffusion WebUI Forge\webui\models\Stable-diffusion.
Открываем папку и копируем туда файл или все файлы моделей.
Теперь мы с вами почти готовы к первому рабочему запуску программы Stable Diffusion WebUI Forge.
Наверное, вы обратили свое внимание на то, что в именах файлов написаны такие сокращения: «fp8» и «nf4». Оба сокращения имеют прямое отношение к методу обработки информации, который называется «квантование» (англ. quantization).
Квантование в информатике — это разбиение диапазона значений непрерывной или дискретной величины на конечное число интервалов. Существует также векторное квантование — разбиение пространства возможных значений векторной величины на конечное число областей.
Квантование для сетей глубокого обучения является важным шагом для ускорения вывода данных, а также для сокращения потребления ресурсов памяти и потребления электроэнергии вашей видеокартой. Масштабированное 8-битное целочисленное квантование сохраняет точность модели, одновременно уменьшая ее размер. Это позволяет развертывать модель на устройствах с меньшим объемом оперативной памяти, оставляя больше места для работы других алгоритмов и логики управления,.
Говоря простым языком, модель «nf4» должна работать быстрее «fp8», но при условии ее аппаратной поддержки вашей видеокартой. Как я понимаю, это напрямую зависит от версии драйвера CUDA (Compute Unified Device Architecture), которую поддерживает ваша видеокарта, и объема оперативной памяти видеокарты.
Забегу немного вперед и скажу сразу, что мне удалось запустить на своем компьютере с видеокартой NVIDIA GTX 980 с 4 Гбайтами видеопамяти следующие модели, которые при генерации изображения размером 512 на 512 показали следующие результаты:
— flux1-schnell-bnb-nf4.safetensors — на создание изображения уходит в среднем 3 мин.
— flux1-dev-bnb-nf4.safetensors — на создание изображения уходит в среднем 6 мин.
— flux1-dev-bnb-nf4-v2.safetensors — на создание изображения уходит в среднем от 3 до 6 мин.
— flux1-dev-fp8.safetensors — на создание изображения уходит в среднем от 3 до 7 мин.
Также я оттестировал работу всех моделей на видеокарте NVIDIA GTX 2060 с 12 Гбайтами видеопамяти и заметил интересную особенность, которая заключается в том, что первое изображение на этой карте создается приблизительно за такое же время, как и на видеокарте NVIDIA GTX 980 с 4 Гбайтами видеопамяти (в среднем три минуты). Но далее проявляется существенное отличие этих карт, которое заключается в том, что NVIDIA GTX 2060 все последующие изображения создает в несколько раз быстрее.
В связи с тем что серии видеокарт NVIDIA RTX 30xx/40xx стоят достаточно дорого, видеокарта NVIDIA GTX 2060 с 12 Гбайтами видеопамяти является лучшим выбором по цене и качеству как для учебы, так и для игр.
Подробнее мы остановимся на этом моменте в следующей главе «Первый запуск и тест вариантов моделей FLUX».
Шаг 3. Дополнительная настройка компьютера
Перед тем как запускать программу Stable Diffusion WebUI Forge, по рекомендации разработчика нам необходимо подготовить свой компьютер к тяжелой работе и сделать некоторые настройки, а именно изменить размер файла подкачки системы.
Для этого наводим курсор мышки на иконку «Мой компьютер», нажимаем правой кнопкой мыши и выбираем «Свойства».
В Windows 10 откроется следующее окно:
Справа в окне выбираем опцию «Дополнительные параметры системы» и переходим на закладку «Дополнительно».
Выбираем раздел «Быстродействие» и жмем кнопку «Параметры», как показано на рисунке ниже:
В разделе «Виртуальная память» нажимаем кнопку «Изменить».
И ставим галочку на опции «Автоматически выбирать объем файла подкачки», как показано ниже:
Теперь немного поясню, зачем мы это сделали.
Во-первых, если вы хотите, чтобы у вас все работало в системе и в играх быстро, то файл подкачки нужно делать фиксированного размера, ориентируясь на параметр «Рекомендуется».
Во-вторых, это не работает так же, если вы пользуетесь установленными на ваш компьютер системами генеративного искусственного интеллекта, которые пытаются выжать из вашего компьютера все возможные вычислительные ресурсы. Если ресурсов не хватит, то компьютер либо зависнет, либо вы увидите «синий экран смерти».
Поэтому экспериментальным путем было установлено, что файл подкачки нужно сделать автоматически изменяемым операционной системой.
И только теперь мы можем приступить к работе с Stable Diffusion WebUI Forge и FLUX.
Шаг 4. Первый запуск и тест моделей FLUX.1
Казалось бы, нам нужно жать мышкой на файл run.bat, но, увы, это не так.
Давайте возьмем для себя за первое правило всегда запускать перед работой файл update.bat. Да, именно он позволит нам всегда использовать самую последнюю версию нашей сборки Stable Diffusion WebUI Forge.
Жмем мышкой на update.bat и наблюдаем за окном обновления, которое представлено ниже:
Когда все обновления будут скачаны и установлены, вы можете закрыть данное окно.
Чтобы приступить к работе с FLUX и запустить Stable Diffusion WebUI Forge, жмем на файл run.bat (всегда после update.bat).
Перед нами откроются два окна:
— Первое окно — это серверная часть программы. Закрывать его не нужно вплоть до окончания работы с системой. Оно будет открываться всегда, когда мы запускаем нашу программу.
В этом окне отображается много важной информации, особенно при создании изображений. В нем в случае сбоя вы сможете также увидеть описание причины сбоя и много другой полезной технической информации.
— Второе окно, которое откроется в вашем интернет-браузере, — это окно пользовательского интерфейса программы Stable Diffusion WebUI Forge на английском языке.
С этим окном мы будем с вами работать все свое основное время при создании и обработке новых изображений.
Прежде чем приступать к генерации нового изображения, нам с вами нужно обратить свое внимание на очень важный аспект работы системы генеративного искусственного интеллекта Stable Diffusion WebUI Forge, а именно на выборе модели и настройке производительности системы.
Все необходимые базовые параметры находятся сверху окна пользовательского интерфейса, как показано на рисунке ниже:
Рассмотрим их более подробно.
Бесплатный фрагмент закончился.
Купите книгу, чтобы продолжить чтение.