Извлечь главы документов MS Word в записи базы данных SQL? - PullRequest
1 голос
/ 22 сентября 2011

У меня есть документ из 300+ страниц, содержащий сотни «глав» (как определено форматами заголовков) и в настоящее время индексируется по слову.Каждая глава содержит средний объем текста (обычно меньше страницы) и, возможно, один или два графических изображения.Я хотел бы разделить документ на записи базы данных для использования в программе iPhone - каждая глава будет представлять собой запись, состоящую из полей title, id # и content.Я еще не решил, хочу ли я, чтобы изображения были отдельным полем (возможно, просто содержащим имя файла), или HTML или ссылки аналогичного стиля в тексте содержимого.В любом случае конечным результатом было бы то, что я мог бы отобразить таблицу заголовков с возможностью поиска, по которой пользователь мог бы щелкнуть, чтобы открыть любую запись.

Трудность, с которой я сталкиваюсь в данный момент, связана со словомдокумент в базу данных.Как мне легче всего разбить документ на записи по главам, сохранив ассоциации изображений?Я думал вставить какой-то уникальный символ между каждой главой, сохранить в текстовом формате, а затем написать скрипт для анализа документа в базе данных на основе этого символа, но я не уверен, что смогу справиться с графикой в ​​этом сценарии.Другие варианты?

1 Ответ

3 голосов
/ 27 сентября 2011

Чтобы ответить на мой вопрос:

Учитывая довольно просто отформатированный документ word

  1. преобразовать его в XML-документ Open Office

  2. написать скрипт Python для анализа документа в базе данных с помощью модуля xml.sax python.

Изображения вставляются в запись в формате HTML для отображения с помощью веб-интерфейса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...