Алгоритм повторяемости документов - PullRequest
1 голос
/ 06 мая 2019

У меня есть коллекция документов, которые были написаны в 2 разных периода времени.Существует предположение, что документ, написанный в период 1, является более кратким, чем документы периода 2. Все они относятся к одной теме.

Единственное, что мне удалось придумать, - это использовать алгоритм LZW и взять соотношение сжатый / оригинал для вычисления краткости документа.

Я хотел бы, чтобы результаты были:

  1. Документ 1 - Индекс повторяемости или процент = 25% или аналогичный показатель.После этого я создам таблицу данных документов в разные периоды с индексом повторяемости и проведу статистические тесты, чтобы увидеть статистическую значимость.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...