Извлекать структурированную информацию из сотен документов Word? - PullRequest
3 голосов
/ 17 ноября 2010

Мне было поручено извлечь некоторую структурированную информацию из сотен читаемых человеком документов (в основном MS Word) и поместить ее в базу данных. Данные в значительной степени встроены в таблицы по всему документу, но между таблицами много текста, и хотя документы очень похожи по структуре, есть несколько отличий. Документы меняются довольно часто (мы получаем обновленную версию каждые несколько месяцев)

Пока единственно возможный вариант, о котором я могу подумать, - это вручную пройтись по всем документам и вставить / обновить информацию, но я подумал, что могу спросить здесь, может ли кто-нибудь подумать, что можно каким-то образом почистить документы?

О, и данные должны быть достаточно правильными ...

1 Ответ

2 голосов
/ 17 ноября 2010

Я проделал аналогичную работу (без таблиц), используя конвертер из RTF в FO

Вы конвертировали документы в RTF, а затем в FO, что дает вам хорошую XML-структуру документа.Затем вы можете легко разобрать его и очистить данные.

...