Question

Посоветуйте, пожалуйста, как решить эту проблему:

У меня есть последовательный список метаданных в документе в MS Word. Основная идея состоит в том, чтобы создать алгоритм Python для перебора информации, извлекая из базы данных только имя ПРОЦЕССА, когда создается очередь.

Пример метаданных:

Процесс: Ходок процесса (1965)
Точная ссылка: Walker Process Equipment., Inc. v. Food Machinery Corp.

Ссылка: http://caselaw.lp.findlaw.com/scripts/getcase.pl?court=US&vol=382&invol=

Тип процедуры: Certiorari в Апелляционный суд США по седьмому округу. Стороны: Walker Process Equipment, Inc.

Отрасль: Системы - это ...

Дата начала: 12-13 октября Аргедас, 1965
Краткое содержание: Компания Food Machinery Company начала процесс, чтобы остановить или замедлить въезд конкурентов путем использования патента, полученного путем мошенничества. Дело касалось патента на «качающиеся диффузоры коленного действия», используемого в аэрационном оборудовании для систем очистки сточных вод, и вопрос заключался в том, может ли «поддержание и обеспечение исполнения патента, полученного путем мошенничества в патентном ведомстве», быть основанием для антимонопольного наказания.
Отчет о процессе эволюции: проситель, в ответ ответить ...

Значение: a) Первый случай, в котором был установлен анализ для диагностики спора…

Около 200 страниц содержат информацию выше.

Я имею в виду идею реализации алгоритма в Python, чтобы иметь возможность нарушать эту последовательность информации и пытаться сохранить ее в веб-базе данных (приложение с открытым исходным кодом, которое я ищу), чтобы позволить бесплатно консультации.

Aneurysm9 · Answer 1 · 24 февраля 2011

Проверьте AntiWord для преобразования документа в открытый текст, затем grep и sed для преобразования в формат, который вы можете передать в свой сценарий.

Alex Angas · Answer 2 · 24 февраля 2011

Последние версии Word позволяют сохранять документы в формате XML. Это можно сделать, явно «сохранив как» и выбрав XML, или разархивировав файл .docx и проанализировав его XML. Форматы XML документируются онлайн в зависимости от версии Word: 2003 Office XML или 2007/2010 Office Open XML .

Все более мощные (например, требующие манипулирования документами) требуют взаимодействия с .NET ( MS Open XML SDK или Aspose .Words).

Каков наилучший способ построить базу данных из документа MS Word?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каков наилучший способ построить базу данных из документа MS Word?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов