Я пытаюсь найти базы данных, такие как набор речевых данных LJ, созданный Китом Ито. Мне нужно использовать эти наборы данных в TacoTron 2 ( Link ), поэтому я думаю, что наборы данных должны быть структурированы определенным образом. база данных LJ напрямую связана со страницей gacub tacotron 2, так что я думаю, можно с уверенностью предположить, что она предназначена для работы с ней. Поэтому я считаю, что базы данных должны иметь ту же структуру, что и ЖЖ. Я скачал набор данных и обнаружил, что он структурирован так:
main folder:
-wavs
-001.wav
-002.wav
-etc
-metadata.csv: This file is a csv file which contains all the things said in every .wav, in a form like this **001.wav | hello etc.**
Итак, мой вопрос: существуют ли другие наборы данных, подобные этому, для дальнейшего обучения?
Но я думаю, что могут быть проблемы, например, голос из одного набора данных будет отличаться от голоса в другом, это вызовет слишком много проблем?
А также разные сленги или подобные вещи могут вызвать проблемы?