Question

./fastText-0.1.0/fasttext skipgram -input wiki_data/enwik9 -output wiki_data/result/enwik9
Read 142M words
Number of words:  847816
Number of labels: 0
Progress: 100.0%  words/sec/thread: 62604  lr: 0.000000  loss: 0.607538  eta: 0h0m

Что означает Количество слов: M означает? И почему это отличается от Прочитать N слов ?

Alex · Answer 1 · 13 июля 2018

N в «Чтении N слов» - это общее количество слов во всем наборе данных, разделенных пробелами.

M в «количество слов M» - это количество уникальных слов во всем наборе данных, которое составляет ваш словарный запас. Однако в действительности это число может быть меньше количества уникальных слов в наборе данных, если для параметра «minCount», который представляет собой минимальное количество вхождений слов, было установлено число больше 1.

Чтобы проиллюстрировать это, вот пример. Предположим, что у вас есть набор данных с:

__label__0 this sentence is an example
__label__1 here is another example

Если вы запускаете быстрый текст с mincount = 1:

Количество прочитанных слов будет 9 (N): [это, предложение, это, пример, здесь, это, другой, пример]
Количество уникальных слов, превышающих mincount, будет равно 7 (M): [это, предложение, пример, здесь, другое]

Если вы запускаете быстрый текст с mincount = 2:

Количество прочитанных слов будет 9 (N): [это, предложение, это, пример, здесь, это, другой, пример]
Количество уникальных слов, превышающих mincount, будет 2 (M): [есть, пример]

Разница между чтением N слов и количеством слов: M в быстром тексте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разница между чтением N слов и количеством слов: M в быстром тексте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы