Токенизация данных на терабайты текстовых данных - PullRequest
0 голосов
/ 22 сентября 2019

У нас есть терабайты (более 30) данных для токенизации и выполнения встраивания слов.К сожалению, у нас ограничено время для этого.Данные разбиты на около 2000 отдельных файлов, размером от мегабайт до многих гигабайт.Файлы передаются с основного сервера на другой экземпляр сервера, где мы можем работать с ними.У нас есть доступ к 128 центральным процессорам и обширному кластеру графических процессоров.

Кто-нибудь может посоветовать, как маркировать данные и создать словарь в эффективный по времени способ?

Стратегия до сих пор былаTokenize с Keras text_to_word_sequence, с пользовательским токенизатором для создания токенов для знаков препинания.Это дает нам скорость 100 Мб / м, в результате чего обработка займет 200 дней.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...