Мне было поручено извлечь некоторую структурированную информацию из сотен читаемых человеком документов (в основном MS Word) и поместить ее в базу данных. Данные в значительной степени встроены в таблицы по всему документу, но между таблицами много текста, и хотя документы очень похожи по структуре, есть несколько отличий. Документы меняются довольно часто (мы получаем обновленную версию каждые несколько месяцев)
Пока единственно возможный вариант, о котором я могу подумать, - это вручную пройтись по всем документам и вставить / обновить информацию, но я подумал, что могу спросить здесь, может ли кто-нибудь подумать, что можно каким-то образом почистить документы?
О, и данные должны быть достаточно правильными ...