У меня есть большое количество файлов документов, включая .pdf, .one, .doc, .docx и т. Д. Я пытаюсь найти способ сравнить текстовое содержимое файлов, чтобы найти дубликаты или близкие совпадения. У меня есть сайт, построенный на стеке LAMP, в который пользователи загружают файлы. Я мог бы либо сравнить документы при загрузке, либо запустить задание cron. Я видел Apache Lucene, упомянутый в аналогичном контексте, и Zend Search Lucene кажется мощной версией PHP, но они больше ориентированы на поиск, чем на сравнение. Будет ли способ использовать их для сравнения?
Спасибо,
Chris