У нас есть терабайты (более 30) данных для токенизации и выполнения встраивания слов.К сожалению, у нас ограничено время для этого.Данные разбиты на около 2000 отдельных файлов, размером от мегабайт до многих гигабайт.Файлы передаются с основного сервера на другой экземпляр сервера, где мы можем работать с ними.У нас есть доступ к 128 центральным процессорам и обширному кластеру графических процессоров.
Кто-нибудь может посоветовать, как маркировать данные и создать словарь в эффективный по времени способ?
Стратегия до сих пор былаTokenize с Keras text_to_word_sequence, с пользовательским токенизатором для создания токенов для знаков препинания.Это дает нам скорость 100 Мб / м, в результате чего обработка займет 200 дней.