Разница между чтением N слов и количеством слов: M в быстром тексте - PullRequest
0 голосов
/ 06 июля 2018
./fastText-0.1.0/fasttext skipgram -input wiki_data/enwik9 -output wiki_data/result/enwik9
Read 142M words
Number of words:  847816
Number of labels: 0
Progress: 100.0%  words/sec/thread: 62604  lr: 0.000000  loss: 0.607538  eta: 0h0m

Что означает Количество слов: M означает? И почему это отличается от Прочитать N слов ?

1 Ответ

0 голосов
/ 13 июля 2018

N в «Чтении N слов» - это общее количество слов во всем наборе данных, разделенных пробелами.

M в «количество слов M» - это количество уникальных слов во всем наборе данных, которое составляет ваш словарный запас. Однако в действительности это число может быть меньше количества уникальных слов в наборе данных, если для параметра «minCount», который представляет собой минимальное количество вхождений слов, было установлено число больше 1.

Чтобы проиллюстрировать это, вот пример. Предположим, что у вас есть набор данных с:

__label__0 this sentence is an example
__label__1 here is another example

Если вы запускаете быстрый текст с mincount = 1:

  • Количество прочитанных слов будет 9 (N): [это, предложение, это, пример, здесь, это, другой, пример]
  • Количество уникальных слов, превышающих mincount, будет равно 7 (M): [это, предложение, пример, здесь, другое]

Если вы запускаете быстрый текст с mincount = 2:

  • Количество прочитанных слов будет 9 (N): [это, предложение, это, пример, здесь, это, другой, пример]
  • Количество уникальных слов, превышающих mincount, будет 2 (M): [есть, пример]
...