Проигрыватель

Используйте данный блок в сценарии, когда требуется, что бы робот синтезировал текст в речь (вкладка Тип: “Синтез”) или проиграл заранее записанный и загруженный в медиатеку аудиофайл (вкладка Тип: “Медиа”).

Блоку “Проигрыватель” может быть присвоен только один тип: либо Синтез, либо Медиа. Если логика вашего сценария требует, что бы робот проговорил текст, а затем был проигран аудиоролик (или наоборот), вам нужно использовать два разных блока проигрывателя.

При использовании функции «Детекция прерывания» , если робот озвучивает текст, а человек внезапно начинает задавать вопросы или нажимать на клавиши, система может реагировать соответствующим образом. Например, при активной «Детекции прерывания» во время озвучивания контента, система может автоматически включать специальное сообщение: «Я отвечу на ваши вопросы в ближайшее время. А сейчас давайте вернемся к обсуждаемой теме». Эти настройки улучшают взаимодействие с пользователем и обеспечивают более гибкую реакцию системы на его запросы и комментарии.

Настройки синтеза по умолчанию

При выборе этого блока вы можете отключить «Настройки синтеза по умолчанию» и открыть новые блоки настроек.

После выбора провайдера будет доступен новый блок «Язык» . При нажатии на него открывается всплывающий список, который содержит все доступные языки.

После выбора языка в следующем блоке предоставляется выбор «Голоса» . Обратите внимание, что для некоторых языков доступен только женский голос, для других — только мужской, и также в некоторых языках доступны оба варианта голоса.

Важно! Yandex.Tts:
У API V3 есть ограничение — запрос не может превышать 250 символов.

SSML разметка в синтезе речи

1. SSML для Яндекса

<speak>
    Вы можете добавить в текст паузу любой длины:
    <break time="2s"/> та-дааам!
    Или разметить текст на параграфы и предложения. Паузы между параграфами длиннее.
    <p>
        <s>Первое предложение.</s>
        <s>Второе предложение.</s>
    </p>
    А еще вы можете подменять фразы.
    Например, чтобы произносить аббревиатуры и <sub alias="тому подобное">т.п.</sub>
</speak>

В этом разделе представлены основные теги SSML (Speech Synthesis Markup Language), используемые для структурирования и настройки синтеза речи Яндекса:

Тег SSML	Описание
<speak>	начало SSML-документа
<break>	вставка паузы в речь
<p>	параграф, бычно используется для группировки текста
<s>	помечает предложение или фразу
<sub>	подменяет текст альтернативным значением
<phoneme>	позволяет указывать произношение с помощью фонем
</speak>	конец SSML-документа

Голоса, которые поддерживает SSML разметка:

Язык	Голос	Пол	Амплуа
Немецкий	Lea	Ж	—
Английский	John	М	—
Казахский	Amira	Ж	—
Казахский	Madi	М	—
Русский	Alena	Ж	(по умолчанию) _{нейтральная — neutral радостная — good}
Русский	Filipp	М	—
Русский	Ermil	М	(по умолчанию) _{нейтральный — neutral радостный — good}
Русский	Jane	Ж	(по умолчанию) _{нейтральная — neutral радостная — good раздраженная — evil}
Русский	Madirus	М	—
Русский	Omazh	Ж	(по умолчанию) _{нейтральная — neutral раздраженная — evil}
Русский	Zahar	М	(по умолчанию) _{нейтральный — neutral радостный — good}
Русский	Marina (по умолчанию)	Ж	(по умолчанию) _{нейтральная — neutral шепот — whisper дружелюбная — friendly}
Узбекский	Nigora	Ж	—

2. SSML для Сбера

<speak>
    Я <paint pitch="5" loudness="5" speed="1">рада</paint>
    приветствовать <paint slope="4" pitch="4" speed="2">уважаемых</paint>
    гостей на этой <paint pitch="4" slope="3" speed="2">встрече</paint>
</speak>

Основные теги, которые вы можете использовать для настройки звучания синтезированной речи Сбера:

Тег SSML	Описание
<speak>	обозначает начало и конец SSML-документа. Весь текст, который должен быть синтезирован в речь, помещается внутри этого тега
<paint>	позволяет контролировать параметры речи, такие как высота тона, громкость и скорость произношения. В атрибутах этого тега вы можете указать изменения, которые хотите внести в речь
<break>	используется для вставки паузы в речь. Вы можете указать длительность паузы в секундах или миллисекундах с помощью атрибута time
<sub>	используется для подмены текста. Вы можете указать альтернативный текст с помощью атрибута alias
<audio>	добавление звуков и междометий
<emphasis>	позволяет выделить акцентом часть текста. Вы можете указать уровень акцента с помощью атрибута level
<say-as>	используется для указания того, как должен быть произнесен текст в соответсвии с его структурой. Например, он может использоваться для произношения чисел, дат, аббревиатур

TTS разметка в синтезе речи

TTS для Яндекса:

TTS	Пример использования
Используйте символ ‘+‘ перед ударной гласной, в случаях, когда нужно уточнить корректный вариант произношения слова	1) Дверь в комнату заперта на зам+ок. 2) Вход в з+амок действительно существовал.
Для явного указания паузы между предложениями вы можете добавить специальный тег sil<[t]>	1) Унылая пора! sil<[300]> Очей очарованье!
Используйте слова-подсказки, чтобы длительность пауз подбиралась автоматически	1) Мороз и солнце; <[medium]> день чудесный!
Чтобы выделить акцент, можно использовать тег <[accented]> или выделить слово при помощи accented	1) Удобные интерфейсы для решения <[задач]>. 2) Мы всегда* будем в ответе за тех, кого приручили.*
Используйте выделение блоком [[ ]], чтобы контролировать правильность произношения с помощью фонем	1) Привет! Меня зовут [[v a sʲ ʌ]]

Описание	Спецсимволы и теги
Поставить ударение	+
Явно указать паузу между предложениями	sil<[t]> _{где t — длительность паузы в миллисекундах}
Указать паузу, зависящую от контекста	<[small]> _{допустимые значения: tiny, small, medium, large, huge}
Выделить акцент	<[accented]> или акцентное слово
Использовать фонетическое произношение	[[<фонемы_слова_разделенные_пробелами>]]

Альтернативные ответы

В некоторых сценариях может потребоваться, что бы система при звонке в случайном порядке выбирала то, что будет произносить робот. Для таких случаев предусмотрена функция «Варианты альтернативного ответа». Благодаря ей, вы можете добавить один или несколько альтернативных вариантов текста для робота, нажав на «+».

Обратите внимание, в окошке «Текст» можно ввести только 250 символов!

Ниже расположены настройки громкости и скорости, с которой робот будет проговаривать текст.

Посимвольное воспроизведение чисел

Когда посимвольное воспроизведение выключено, числа выводятся с использованием стандартного форматирования, которое может включать:

Десятичные знаки (точки или запятые);
Знаки валют или другие символы форматирования.

Пример:

1234567.89 $ (или 1 234 567 долларов 89 центов).

Когда посимвольное воспроизведение включено, число выводится без каких-либо дополнительных символов или форматирования. Это означает, что каждая цифра и знак выводятся по очереди.

Пример:

число 1234567.89 произнесет как 1 2 3 4 5 6 7 . 8 9

Кроме того, поддерживается воспроизведение и озвучка как из переменной, так и путем простого ввода цифр в блок проигрывателя.

Медиа

Чтобы привязать аудиофайл к проигрывателю, перейдите во вкладку «Медиа» и выберите любой файл из вашей медиатеки. Вы также можете воспользоваться поиском, чтобы быстро найти нужный медиафайл:

В некоторых сценариях может возникнуть необходимость, чтобы система случайным образом выбирала медиа для воспроизведения. В таких случаях используется функция «Варианты альтернативного медиа». С ее помощью вы можете добавить несколько различных медиафайлов для робота, нажав на «+».

Если необходимость использования альтернативного медиа отсутствует, вы можете нажать на «-» , и они будут удалены.

На этой странице