Услуга доступна начиная с версии ПО 3.14.3

Основные понятия

На ECSS-10 имеется возможность транскрибирования записанных разговоров (распознавание текста из голоса). Для этого сервису транскрибирования требуется передать аудио файл в формате WAV, после чего он выдаст результат.

Принцип работы

Для распознавания текста из файла, требуется передать на вход сервиса файл в формате WAV. Существует несколько способов распознавания текста. Описание приведено ниже.

Команда в bash:

ASR_IP:PORT/trans [OPTIONS]- возвращает список распознанных слов с временными метками

Синтаксис:

OPTIONS = { -T[file]}

  • -T — файл, передаваемый сервису.


Команда в bash:

ASR_IP:PORT/trans/vtt — возвращает субтитры в форматы WEBVTT (расширение .vtt)

Синтаксис:

OPTIONS = { -H[Header] | -T[file]}

  • -H — метки добавляемые в выводе утилиты, после транскрибирования;
  • -T — файл, передаваемый сервису.


Команда в bash:

ASR_IP:PORT/trans/mono — список распознанных слов с временными метками только для первого канала, игнорируя остальные

Синтаксис:

OPTIONS = { -T[file] }

  • -T — файл, передаваемый сервису.


Команда в bash:

ASR_IP:PORT/trans/mono/vtt — распознает только первый канал и конвертирует в субтитры

Синтаксис:

OPTIONS = { -H[Header] | -T[file]}

  • -H — метки добавляемые в выводе утилиты, после транскрибирования;
  • -T — файл, передаваемый сервису.

Пример работы сервиса

$ curl localhost:9000/trans -T test.wav

Ответ:
[Абонент: А]
decoder-test 1 0.99 0.27 да 0.78
decoder-test 1 2.73 0.21 да 1.00
decoder-test 1 2.94 0.36 да 1.00
decoder-test 1 5.94 0.33 какими 0.93
decoder-test 1 6.27 0.45 деньгами 0.94

[Абонент: Б]
decoder-test 1 1.65 0.45 алло 0.77
decoder-test 1 3.48 0.15 ну 0.47
decoder-test 1 3.63 0.18 как 0.47
decoder-test 1 3.81 0.15 там 0.47
decoder-test 1 3.96 0.06 с 0.46
decoder-test 1 4.02 0.54 деньгами 1.00


$ curl localhost:9000/trans/vtt  -H "Calling: Алиса" -H "Called: Боб" -T test.wav

Ответ:
WEBVTT

1
00:00:00.990 --> 00:00:01.260
<v> Алиса>
да
</v>

2
00:00:01.650 --> 00:00:02.100
<v> Боб>
алло
</v>

3
00:00:02.730 --> 00:00:03.300
<v> Алиса>
да да
</v>

4
00:00:03.480 --> 00:00:04.560
<v> Боб>
ну как там с деньгами
</v>

5
00:00:05.940 --> 00:00:6.720
<v> Алиса>
какими деньгами
</v>

Примечание: (<v></v>) - voice tag