Передача Mediastream по каналу NodeJS socket.io в API Google Speech и обратная передача ответов - PullRequest
0 голосов
/ 09 мая 2019

Я хочу реализовать преобразование речи в текст, используя Google Speech API , но в моем интерфейсе я не совсем понимаю, что мне делать, я использую Socket.io Stream в как внутренний, так и внешний.

Интерфейс (Javascript)

bindSendAudioMessage() {
    let me = this;

    me.sendAudioMessageButton = me.ele.find('#send-audio-message-btn');

    me.sendAudioMessageButton.off('click').one('click', async function () {
        let stream = await navigator.mediaDevices.getUserMedia({ audio : true});
        me.recordingStarted(stream);
    });
},
recordingStarted: function (inputStream) {
    let serverStream = ss.createStream();
    ss(chatBox.socketIO).emit('speech-to-text', serverStream);
    inputStream.pipe(serverStream);
    ss(chatBox.socketIO).on('speech-text', function (stream) {
        console.log('receiving something');
        console.log(stream);
        stream.on('data', data => {
            console.log(data);
        })
    })
},

Backend (NodeJS)

// Imports the Google Cloud client library
const speech = require('@google-cloud/speech');

// Creates a client
const client = new speech.SpeechClient();
SocketStream(socket).on('speech-to-text', function (inputStream) {
    console.log(inputStream);
    const request = {
        config: {
            encoding: 'LINEAR16',
            sampleRateHertz: 16000,
            languageCode: 'en-US',
        },
        interimResults: false, // If you want interim results, set this to true
        single_utterance: true,
    };

    // Create a recognize stream
    const recognizeStream = client
        .streamingRecognize(request)
        .on('error', console.error)
        .on('data', data =>
            process.stdout.write(
                data.results[0] && data.results[0].alternatives[0]
                    ? `Transcript: ${data.results[0].alternatives[0].transcript}\n`
                    : `\n\nReached transcription time limit, press Ctrl+C\n`
            )
        );

    let outputStream = SocketStream.createStream();
    SocketStream(socket).emit('speech-text', outputStream);

    // Pipe inputStream to recognizeStream then to outputStream
    inputStream.pipe(recognizeStream).pipe(outputStream);
})

Я уверен, что есть что-то, чего мне не хватает в потоковом API, одна известная мне проблема - navigator.mediaDevices.getUserMedia({ audio : true}) даст мне MediaStream, который не совпадает с SocketIO Stream.

  • Как я могу подготовить аудио MediaStream, чтобы иметь возможность передавать его на SocketIO Stream?

  • Как мне перенаправить ответы, когда я получаю их из Google API?

  • Имеет ли смысл эта строка inputStream.pipe(recognizeStream).pipe(outputStream);?

...