Предоставляет ли NLTK или любые другие инструменты NLP библиотеку для измерения обычного уровня словарного запаса?
Под этим обычным уровнем я подразумеваю, что некоторые слова являются простыми и чаще используются как «и, возраст, да, это, те, добрые», которые должен знать любой ученик начальной школы. Аналогично тому, что словарь Longman Engli sh (обычно для ESL) определил базовый словарь из 3000 слов c для объяснения всех записей с помощью.
Может быть набор редких слов, попадающих в редко используемый уровень, который используются только педанти c, такие как Agastopia, Impignorate, Gobbledygook и др. c.
Наверняка есть несколько уровней между этими двумя крайностями. Конечно, это определение уровня является чисто субъективным, и я ожидаю, что разные организации или лица могут иметь разные взгляды. По крайней мере, это может отличаться от региона к региону.
Моя цель - измерить сложность / сложность некоторых отрывков, ну, в настоящее время наивно, просто проверяя их словарный запас.
«Обычный уровень», возможно, не является хорошим описанием, но я не могу найти правильное и формальное выражение :). Я надеюсь, что мое объяснение проясняет мою цель.