N в «Чтении N слов» - это общее количество слов во всем наборе данных, разделенных пробелами.
M в «количество слов M» - это количество уникальных слов во всем наборе данных, которое составляет ваш словарный запас. Однако в действительности это число может быть меньше количества уникальных слов в наборе данных, если для параметра «minCount», который представляет собой минимальное количество вхождений слов, было установлено число больше 1.
Чтобы проиллюстрировать это, вот пример.
Предположим, что у вас есть набор данных с:
__label__0 this sentence is an example
__label__1 here is another example
Если вы запускаете быстрый текст с mincount = 1:
- Количество прочитанных слов будет 9 (N): [это, предложение, это, пример, здесь, это, другой, пример]
- Количество уникальных слов, превышающих mincount, будет равно 7 (M): [это, предложение, пример, здесь, другое]
Если вы запускаете быстрый текст с mincount = 2:
- Количество прочитанных слов будет 9 (N): [это, предложение, это, пример, здесь, это, другой, пример]
- Количество уникальных слов, превышающих mincount, будет 2 (M): [есть, пример]