Проигрыватель

Используйте данный блок в сценарии, когда требуется, что бы робот синтезировал текст в речь (вкладка Тип: “Синтез”) или проиграл заранее записанный и загруженный в медиатеку аудиофайл (вкладка Тип: “Медиа”).

Блоку “Проигрыватель” может быть присвоен только один тип: либо Синтез, либо Медиа. Если логика вашего сценария требует, что бы робот проговорил текст, а затем был проигран аудиоролик (или наоборот), вам нужно использовать два разных блока проигрывателя.

При использовании функции «Детекция прерывания«, если робот озвучивает текст, а человек внезапно начинает задавать вопросы или нажимать на клавиши, система может реагировать соответствующим образом. Например, при активной «Детекции прерывания» во время озвучивания контента, система может автоматически включать специальное сообщение: «Я отвечу на ваши вопросы в ближайшее время. А сейчас давайте вернемся к обсуждаемой теме». Эти настройки улучшают взаимодействие с пользователем и обеспечивают более гибкую реакцию системы на его запросы и комментарии.

Настройки синтеза по умолчанию

При выборе этого блока вы можете отключить «Настройки синтеза по умолчанию» и открыть новые блоки настроек.

После выбора провайдера будет доступен новый блок «Язык«. При нажатии на него открывается всплывающий список, который содержит все доступные языки.

После выбора языка в следующем блоке предоставляется выбор «Голоса«. Обратите внимание, что для некоторых языков доступен только женский голос, для других — только мужской, и также в некоторых языках доступны оба варианта голоса.

Важно! Yandex.Tts:
У API V3 есть ограничение — запрос не может превышать 250 символов.

SSML разметка в синтезе речи

1. SSML для Яндекса

<speak>
    Вы можете добавить в текст паузу любой длины:
    <break time="2s"/> та-дааам!
    Или разметить текст на параграфы и предложения. Паузы между параграфами длиннее.
    <p>
        <s>Первое предложение.</s>
        <s>Второе предложение.</s>
    </p>
    А еще вы можете подменять фразы.
    Например, чтобы произносить аббревиатуры и <sub alias="тому подобное">т.п.</sub>
</speak>

В этом разделе представлены основные теги SSML (Speech Synthesis Markup Language), используемые для структурирования и настройки синтеза речи Яндекса:

Тег SSMLОписание
<speak>начало и конец SSML-документа
<break>вставка паузы в речь
<p>параграф, бычно используется для группировки текста
<s>помечает предложение или фразу
<sub>подменяет текст альтернативным значением
<phoneme>позволяет указывать произношение с помощью фонем

Голоса, которые поддерживает SSML разметка:

ЯзыкГолосПолАмплуа
НемецкийLeaЖ
АнглийскийJohnМ
КазахскийAmiraЖ
КазахскийMadiМ
РусскийAlenaЖ(по умолчанию)
нейтральная — neutral
радостная — good
РусскийFilippМ
РусскийErmilМ(по умолчанию)
нейтральный — neutral
радостный — good
РусскийJaneЖ(по умолчанию)
нейтральная — neutral
радостная — good
раздраженная — evil
РусскийMadirusМ
РусскийOmazhЖ(по умолчанию)
нейтральная — neutral
раздраженная — evil
РусскийZaharМ(по умолчанию)
нейтральный — neutral
радостный — good
РусскийMarina (по умолчанию)Ж(по умолчанию)
нейтральная — neutral
шепот — whisper
дружелюбная — friendly
УзбекскийNigoraЖ

2. SSML для Сбера

<speak>
    Я <paint pitch="5" loudness="5" speed="1">рада</paint>
    приветствовать <paint slope="4" pitch="4" speed="2">уважаемых</paint>
    гостей на этой <paint pitch="4" slope="3" speed="2">встрече</paint>
</speak>

Основные теги, которые вы можете использовать для настройки звучания синтезированной речи Сбера:

Тег SSMLОписание
<speak>обозначает начало и конец SSML-документа. Весь текст, который должен быть синтезирован в речь, помещается внутри этого тега
<paint>позволяет контролировать параметры речи, такие как высота тона, громкость и скорость произношения. В атрибутах этого тега вы можете указать изменения, которые хотите внести в речь
<break>используется для вставки паузы в речь. Вы можете указать длительность паузы в секундах или миллисекундах с помощью атрибута time
<sub>используется для подмены текста. Вы можете указать альтернативный текст с помощью атрибута alias
<audio>добавление звуков и междометий
<emphasis>позволяет выделить акцентом часть текста. Вы можете указать уровень акцента с помощью атрибута level
<say-as>используется для указания того, как должен быть произнесен текст в соответсвии с его структурой. Например, он может использоваться для произношения чсел, дат, аббревиатур

TTS разметка в синтезе речи

TTS для Яндекса:

TTSПример использования
Используйте символ ‘+‘ перед ударной гласной, в случаях, когда нужно уточнить корректный вариант произношения слова1) Дверь в комнату заперта на зам+ок.

2) Вход в з+амок действительно существовал.
Для явного указания паузы между предложениями вы можете добавить специальный тег sil<[t]>
1) Унылая пора! sil<[300]> Очей очарованье!
Используйте слова-подсказки, чтобы длительность пауз подбиралась автоматически
1) Мороз и солнце; <[medium]> день чудесный!
Чтобы выделить акцент, можно использовать тег <[accented]> или выделить слово при помощи **accented**1) Удобные интерфейсы для решения <[задач]>.

2) Мы **всегда** будем в ответе за тех, кого приручили.
Используйте выделение блоком [[ ]], чтобы контролировать правильность произношения с помощью фонем
1) Привет! Меня зовут [[v a sʲ ʌ]]
ОписаниеСпецсимволы и теги
Поставить ударение+
Явно указать паузу между предложениямиsil<[t]>
где t — длительность паузы в миллисекундах
Указать паузу, зависящую от контекста<[small]>
допустимые значения: tiny, small, medium, large, huge
Выделить акцент<[accented]> или **акцентное слово**
Использовать фонетическое произношение[[<фонемы_слова_разделенные_пробелами>]]

Альтернативные ответы

В некоторых сценариях может потребоваться, что бы система при звонке в случайном порядке выбирала то, что будет произносить робот. Для таких случаев предусмотрена функция «Варианты альтернативного ответа». Благодаря ей, вы можете добавить один или несколько альтернативных вариантов текста для робота, нажав на «+».

Ниже расположены настройки громкости и скорости, с которой робот будет проговаривать текст.

Посимвольное воспроизведение чисел

Когда посимвольное воспроизведение выключено, числа выводятся с использованием стандартного форматирования, которое может включать:

  • Десятичные знаки (точки или запятые);
  • Знаки валют или другие символы форматирования.

Пример:

  • 1234567.89 $ (или 1 234 567 долларов 89 центов).

Когда посимвольное воспроизведение включено, число выводится без каких-либо дополнительных символов или форматирования. Это означает, что каждая цифра и знак выводятся по очереди.

Пример:

  • число 1234567.89 произнесет как 1 2 3 4 5 6 7 . 8 9

Кроме того, поддерживается воспроизведение и озвучка как из переменной, так и путем простого ввода цифр в блок проигрывателя.

Медиа

Для того, что бы привязать к проигрывателю аудиофайл перейдите во вкладку “Медиа” и нажмите на любой из файлов, загруженных в вашу медиатеку:

В некоторых сценариях может возникнуть необходимость, чтобы система случайным образом выбирала медиа для воспроизведения. В таких случаях используется функция «Варианты альтернативного медиа». С ее помощью вы можете добавить несколько различных медиафайлов для робота, нажав на «+».

Если необходимость использования альтернативного медиа отсутствует, вы можете нажать на «-» , и они будут удалены.

На этой странице