Услуга доступна начиная с версии ПО 3.14.3
Основные понятия
На ECSS-10 имеется возможность транскрибирования записанных разговоров (распознавание текста из голоса). Для этого сервису транскрибирования требуется передать аудио файл в формате WAV, после чего он выдаст результат.
Принцип работы
Для распознавания текста из файла, требуется передать на вход сервиса файл в формате WAV. Существует несколько способов распознавания текста. Описание приведено ниже.
Команда в bash:
ASR_IP:PORT/trans [OPTIONS]- возвращает список распознанных слов с временными метками
Синтаксис:
OPTIONS = { -T[file]}
- -T — файл, передаваемый сервису.
Команда в bash:
ASR_IP:PORT/trans/vtt — возвращает субтитры в форматы WEBVTT (расширение .vtt)
Синтаксис:
OPTIONS = { -H[Header] | -T[file]}
- -H — метки добавляемые в выводе утилиты, после транскрибирования;
- -T — файл, передаваемый сервису.
Команда в bash:
ASR_IP:PORT/trans/mono — список распознанных слов с временными метками только для первого канала, игнорируя остальные
Синтаксис:
OPTIONS = { -T[file] }
- -T — файл, передаваемый сервису.
Команда в bash:
ASR_IP:PORT/trans/mono/vtt — распознает только первый канал и конвертирует в субтитры
Синтаксис:
OPTIONS = { -H[Header] | -T[file]}
- -H — метки добавляемые в выводе утилиты, после транскрибирования;
- -T — файл, передаваемый сервису.
Пример работы сервиса
$ curl localhost:9000/trans -T test.wav
Ответ:
[Абонент: А]
decoder-test 1 0.99 0.27 да 0.78
decoder-test 1 2.73 0.21 да 1.00
decoder-test 1 2.94 0.36 да 1.00
decoder-test 1 5.94 0.33 какими 0.93
decoder-test 1 6.27 0.45 деньгами 0.94
[Абонент: Б]
decoder-test 1 1.65 0.45 алло 0.77
decoder-test 1 3.48 0.15 ну 0.47
decoder-test 1 3.63 0.18 как 0.47
decoder-test 1 3.81 0.15 там 0.47
decoder-test 1 3.96 0.06 с 0.46
decoder-test 1 4.02 0.54 деньгами 1.00
$ curl localhost:9000/trans/vtt -H "Calling: Алиса" -H "Called: Боб" -T test.wav
Ответ:
WEBVTT
1
00:00:00.990 --> 00:00:01.260
<v> Алиса>
да
</v>
2
00:00:01.650 --> 00:00:02.100
<v> Боб>
алло
</v>
3
00:00:02.730 --> 00:00:03.300
<v> Алиса>
да да
</v>
4
00:00:03.480 --> 00:00:04.560
<v> Боб>
ну как там с деньгами
</v>
5
00:00:05.940 --> 00:00:6.720
<v> Алиса>
какими деньгами
</v>
Примечание: (<v></v>) - voice tag