Перчатка: тренировка с одним текстовым файлом. GLoVE пытается прочитать это в память? Или это потоковое? - PullRequest
1 голос
/ 18 февраля 2020

Мне нужно обучить некоторые модели перчаток сравнивать их с word2ve c и выводом fasttext. Это реализовано в C, и я не могу прочитать C код. Github - здесь .

Учебный корпус должен быть отформатирован в один текстовый файл. Для меня это было бы >> 100G - слишком большой для памяти. Прежде чем тратить время на создание такой вещи, я был бы признателен, если бы кто-нибудь мог сказать мне, пытается ли перчатка go прочитать эту вещь в память, или она выводит ее с диска.

Если первое, то текущая реализация перчатки не будет совместима с моими данными (я думаю). Если последнее, я бы на это.

1 Ответ

0 голосов
/ 19 февраля 2020

Перчатка сначала строит матрицу совместного использования слова, а затем работает над этим. При построении этой матрицы связанная реализация направляет входной файл в несколько потоков. Каждый поток читает по одной строке за раз.

Требуемая память будет в основном зависеть от количества уникальных слов в вашем корпусе, если строки не слишком длинные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...