В настоящее время я пытаюсь создать веб-приложение, которое использует облако-речь в тексте Google, в частности функцию диаризации динамика. Мой сервер написан на узле js, и я отправляю аудиофайл в виде URI хранилища Google. Мой речевой конфиг выглядит так
config: {
encoding: 'LINEAR16',
languageCode: 'en-GB',
sampleRateHertz: 8000,
enableSpeakerDiarization: true,
diarizationSpeakerCount: true,
}
и в транскриптах, которые я получаю, есть пустой массив 'words', который, как говорится в документации по облачным речам в Google, должен содержать теги динамика:
{ words: [],
transcript: 'and the rabbit sails at dusk',
confidence: 0.8659023642539978 }
, возможно, стоит отметить, что если я добавлю
enableWordTimeOffsets: true,
к моей конфигурации, тогда я получаю массив слов, как это:
[ { startTime: { seconds: '0', nanos: 0 },
endTime: { seconds: '0', nanos: 600000000 },
word: 'Hello' } etc..
Обновление
Я неправильно импортировал речевую библиотеку google cloud для nodejs, я сделал это:
const speech = require('@google-cloud/speech');
где для использования бета-функций мне нужно было использовать это:
const speech = require('@google-cloud/speech').v1p1beta1;
после того, как я сделал это изменение, проблема была решена.