Объем потока PyAudio слишком низкий - PullRequest
0 голосов
/ 10 марта 2019

Я играю файл Pyaudio каждый раз, когда функция распознавания лиц OpenCV возвращает ограничивающую рамку. Таким образом, по существу, для каждого обновления координат ограничивающей рамки мы записываем wav-данные в поток pyaudio. Поток воспроизводит аудиофайл при каждом событии обнаружения лица, как я хочу, но после нескольких секунд записи данных в поток звук становится слишком тихим, чтобы его можно было услышать.

Я записываю аудиоданные в поток в цикле while ниже:

Полный код:

import cv2
import numpy as np
import pyaudio
import wave
import sys


CHUNK = 1024

wf = wave.open("audio files\light.wav", 'r')
print(wf.getframerate())

# instantiate PyAudio
p = pyaudio.PyAudio()

# open stream
stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                channels=wf.getnchannels(),
                rate=wf.getframerate(),
                output=True)

# read data
data = wf.readframes(CHUNK)

# play sound
# while len(data) > 0:
#     stream.write(data)
#     data = wf.readframes(CHUNK)


face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')
eye_cascade = cv2.CascadeClassifier('haarcascade_eye.xml')

cap = cv2.VideoCapture(0)

while True:
    ret, img = cap.read()
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    faces = face_cascade.detectMultiScale(gray, 1.3, 5)
    for (x, y, w, h) in faces:
        cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2)
        roi_gray = gray[y:y+h, x:x+w]
        roi_color = img[y:y+h, x:x+w]

        data = wf.readframes(CHUNK)
        stream.write(data)

        eyes = eye_cascade.detectMultiScale(roi_gray)
        for (ex, ey, ew, eh) in eyes:
            cv2.rectangle(roi_color, (ex, ey), (ex+ew, ey+eh), (0, 255, 0), 2)

    cv2.imshow('img', img)
    k = cv2.waitKey(30) & 0xff
    if k == 27:
        break
# stop stream
stream.stop_stream()
stream.close()

# close PyAudio
p.terminate()

cap.release()
cv2.destroyAllWindows()

1 Ответ

0 голосов
/ 15 марта 2019

Вы читаете произвольную часть вашего звука (некоторые кадры) в вашем случае CHUNK = 1024 кадров по какой-то причине. Что именно вы ожидали от этого? Чтобы играть по частям в каждом кадре? Из вашего контекста кажется, что вы хотите воспроизвести весь звук, так что это не способ сделать это.

Вы должны прочитать все звуковые кадры и записать их сразу:

data = wf.readframes(wf.getnframes())
stream.write(data)

Если, с другой стороны, у вас возникли проблемы с недозагрузкой, вы можете рассмотреть решение, предложенное в таких ответах, как этот или этот .

...