Каков наилучший способ построить базу данных из документа MS Word? - PullRequest
5 голосов
/ 24 февраля 2011

Посоветуйте, пожалуйста, как решить эту проблему:

У меня есть последовательный список метаданных в документе в MS Word. Основная идея состоит в том, чтобы создать алгоритм Python для перебора информации, извлекая из базы данных только имя ПРОЦЕССА, когда создается очередь.

Пример метаданных:

Процесс: Ходок процесса (1965)
Точная ссылка: Walker Process Equipment., Inc. v. Food Machinery Corp.

Ссылка: http://caselaw.lp.findlaw.com/scripts/getcase.pl?court=US&vol=382&invol=

Тип процедуры: Certiorari в Апелляционный суд США по седьмому округу. Стороны: Walker Process Equipment, Inc.

Отрасль: Системы - это ...

Дата начала: 12-13 октября Аргедас, 1965
Краткое содержание: Компания Food Machinery Company начала процесс, чтобы остановить или замедлить въезд конкурентов путем использования патента, полученного путем мошенничества. Дело касалось патента на «качающиеся диффузоры коленного действия», используемого в аэрационном оборудовании для систем очистки сточных вод, и вопрос заключался в том, может ли «поддержание и обеспечение исполнения патента, полученного путем мошенничества в патентном ведомстве», быть основанием для антимонопольного наказания.
Отчет о процессе эволюции: проситель, в ответ ответить ...

Значение: a) Первый случай, в котором был установлен анализ для диагностики спора…

Около 200 страниц содержат информацию выше.

Я имею в виду идею реализации алгоритма в Python, чтобы иметь возможность нарушать эту последовательность информации и пытаться сохранить ее в веб-базе данных (приложение с открытым исходным кодом, которое я ищу), чтобы позволить бесплатно консультации.

Ответы [ 2 ]

3 голосов
/ 24 февраля 2011

Проверьте AntiWord для преобразования документа в открытый текст, затем grep и sed для преобразования в формат, который вы можете передать в свой сценарий.

2 голосов
/ 24 февраля 2011

Последние версии Word позволяют сохранять документы в формате XML. Это можно сделать, явно «сохранив как» и выбрав XML, или разархивировав файл .docx и проанализировав его XML. Форматы XML документируются онлайн в зависимости от версии Word: 2003 Office XML или 2007/2010 Office Open XML .

Все более мощные (например, требующие манипулирования документами) требуют взаимодействия с .NET ( MS Open XML SDK или Aspose .Words).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...