Для сокращения длительности аудиофайла вы можете использовать несколько разных подходов.
необходимо сжать данные и манипулироватьскорость звука вместо обрезки.
Вы можете изменить частоту дискретизации файла. Если бы исходная частота дискретизации составляла 44.1
кГц с сохранением 44100
выборок, это дало бы вам длительность ровно одну секунду. Чтобы изменить длительность, скажем, на полсекунды, вы можете просто удвоить частоту дискретизации до 88,2 кГц. Это приведет к воспроизведению файла с удвоенной скоростью, и в результате высота тона будет увеличена на одну октаву. Частота выборки в файле WAV - это просто число, разница в том, как вы собираетесь использовать этот файл и как он импортируется в среду цифрового аудио. Если вы импортировали файл 88.2
кГц в проект 44.1
кГц, может произойти одно из двух действий
- Вы можете обнаружить, что файл просто воспроизводится, возвращаясь к своему оригиналудлительность
1
секунда ИЛИ - она может сохранить длительность
0.5
секунд, но вы потеряете половину отсчетов и, следовательно, некоторое высокочастотное содержимое.
Если вы хотите изменить частоту дискретизации Fs1
с N
выборками, длительность составляет Tf1
. Для новой длительности Tf2
умножьте частоту дискретизации на соотношение старой и новой длительности, чтобы получить новую частоту дискретизации Fs1
. т. е.
Fs2 = Fs1 * (Tf1/Tf2)
Вы должны будете убедиться, что любая среда, которую вы используете, способна обрабатывать нечетные и необычные частоты дискретизации.
Частота дискретизации файла WAV
Чтобы изменить частоту дискретизации wav-файла, вам просто нужно отредактировать заголовок файла
Вам необходимо отредактировать как SampleRate на byte 24
, так и ByteRateна byte 32
. волновая библиотека должна держать вас в курсе.
DAW, такая как Audacity
или Praat
, должна помочь вам. Это может быть довольно медленным для большого количества файлов.
Вы можете уменьшить выборку файла и сохранить частоту дискретизации. отбрасывание выборок означало бы потерю данных, которая противоречила бы этому предупреждению в вашем вопросе.
, поэтому этот процесс не должен повредить какие-либо важные характеристики данных.
Есливы имеете дело с речевыми данными, вы можете потерять некоторую информацию практически без вреда для здоровья. Речь человека находится в диапазоне от 20
Гц до 20
кГц , поэтому идеальной является частота дискретизации не менее 40
кГц, хотя, возможно, этот диапазон может быть уменьшен до 16 кГц без слишком больших потерь в деталях. ,Если вы смотрите только на определенное содержание речи, например гласный звук или перегиб F0
, вы можете уменьшить диапазон на 2 кГц. Взгляните на некоторые основы выборки речи