Question

У нас есть терабайты (более 30) данных для токенизации и выполнения встраивания слов.К сожалению, у нас ограничено время для этого.Данные разбиты на около 2000 отдельных файлов, размером от мегабайт до многих гигабайт.Файлы передаются с основного сервера на другой экземпляр сервера, где мы можем работать с ними.У нас есть доступ к 128 центральным процессорам и обширному кластеру графических процессоров.

Кто-нибудь может посоветовать, как маркировать данные и создать словарь в эффективный по времени способ?

Стратегия до сих пор былаTokenize с Keras text_to_word_sequence, с пользовательским токенизатором для создания токенов для знаков препинания.Это дает нам скорость 100 Мб / м, в результате чего обработка займет 200 дней.

Токенизация данных на терабайты текстовых данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Токенизация данных на терабайты текстовых данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов