22

Озвучка диалогов с помощью нейросети FishSpeech

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.

Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.

Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.


❯ Основные особенности FishSpeech🐠

Fish Speech Dialogue — современный инструмент для озвучивания диалогов и реплик с использованием разнообразных голосов.

Благодаря портативной версии не нужна установка базового Fish Speech MOD, а функциональность доступна «из коробки»:

  • Поддержка до 10 говорящих. Идеально для одиночных реплик и сложных диалогов.

  • Автоматическое распределение голосов. Экономит время, подбирая подходящие голоса для каждого персонажа.

  • Библиотека из 50+ голосов от сообщества. От Жириновского до Яндекс Алисы.

  • Форматирование диалогов. Автоматическое оформление в формате «Говорящий: текст».

  • Различные форматы сохранения. Поддерживаются WAV, MP3 и FLAC.

  • Мультиязычный интерфейс. Доступны русский и английский.

  • Автообновления и интеграция с GitHub.

❯ Обзор интерфейса

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Интерфейс FishSpeech Dialogue

Нас встречает такой интерфейс. В самой верхней строке можно выбрать язык интерфейса, изначально будет английский.

Левое окно «Статистика диалога» — основное рабочее поле. В верхней части окна отображается количество говорящих, число реплик и общее количество символов. Нижняя часть содержит текст диалога.

Диалоги необходимо оформлять так: каждая реплика должна начинаться с имени говорящего и двоеточия. Пример видно на скриншоте выше.

В правой части интерфейса находится блок с итоговым результатом и кнопка «Сгенерировать диалог».

Плавно спускаемся ниже.

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Количество говорящих — это автоматический параметр, который определяется системой в зависимости от структуры диалога.

Для каждого говорящего доступна отдельная панель настроек. Здесь можно:

  1. Указать имя говорящего, которое должно совпадать с именем в тексте диалога.

  2. Выбрать референсный голос из доступных вариантов.

  3. Загрузить собственную аудиодорожку и использовать голос из неё. Также необходимо подписать транскрипцию. В этом случае нейросеть будет использовать загруженный голос для генерации диалога. Транскрипцию пишем сплошным текстом.

Последняя функция очень полезна. Когда ваш профессиональный диктор заболел, можно чуть схитрить и продолжить процесс записи и озвучки :D

В самом низу находятся расширенные настройки:

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Честно, расширенные параметры я не щупал, меня интересовал лишь принцип работы и результаты. Но я попросил ассистента Perplexity пояснить, что это, кому интересно, вот выжимка:

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

В общем, всё до безумия просто. Пишем или генерируем диалог, выбираем голоса и получаем озвучку. Давайте посмотрим на неё в деле.

❯ Примеры и возможности

Начнём с простого — рассуждения Винни-Пуха.

Давайте усложним и представим миниатюру: бытовой диалог Джонни Сильверхенда и Яндекс Алисы.

Сгенерируем диалог с тремя участниками - Шерлок Холмс, Сергей Дружко и Кот Матроскин. Такого вы ещё не слышали.

Далее я решил попробовать сгенерировать что-нибудь на английском с голосом Матроскина. И вышло очень даже неплохо и похоже.

Дмитрий Нагиев и Чебурашка:

Ну и напоследок я попросил свою знакомую записать пару голосовых для теста. Дальше скачал их в формате .ogg, конвертировал в .mp3 и загрузил в нейросеть. Для транскрипции я использую крутую нейронку Whisper, скачать её можно на GitHub. Там всё интуитивно понятно, думаю, разберётесь. Вот что получилось.

Ещё пара примеров:

Как итог, FishSpeech — удобный инструмент, который помогает озвучивать тексты даже в ситуациях, когда запись голоса невозможна. Простота и гибкость делают его отличным решением для создания игр, подкастов, аудиокниг и других проектов, где важна качественная озвучка.

Скачать портативную версию FishSpeech с установкой в один клик для самых ленивых вы можете тут.

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!

Правила сообщества

Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

OSZAR »