Это распространенная проблема в базовых курсах криптографии (моя первая работа по программированию).
Если вы сгенерировали word гистограмму всего корпуса вашего документа (каждая ячейка - это слово на оси x, высота которого - частота, представленная высотой на оси y) Такие слова, как «это», «то», «и» и т. д., было бы легко идентифицировать из-за их больших значений y (частоты). Фамилии должны быть справа от вашей гистограммы - очень редко; имена даны слева, но не намного.
Эта техника точно определяет имена в каждом документе? Нет, но это может быть использовано, чтобы существенно ограничить ваш поиск, исключив все слова, частота которых превышает X . Аналогично, должны быть другие атрибуты, которые ограничивают ваш поиск, например, имена авторов появляются только один раз в документах, которые они создали, а не в каких-либо других документах.