Question

У меня много больших текстовых документов, которые я хочу проанализировать с помощью perl.Каждый документ содержит в основном абзацы на английском языке, с парой простых текстовых размеченных таблиц в каждом документе.

Я создал грамматику для описания структуры таблицы, но не уверен, будет ли лучше использовать Parse :: RecDescent или Regexp :: Grammars для извлечения таблиц.

Сначала я склонялся к Parse :: RecDescent, но я не уверен в грамматике, как бы вы справились с 90% текста документа, который я хочу игнорировать, чтобы найти пару таблиц, которые яхочу извлечь похороненный внутри каждого документа.

Возможно, мне нужно Regexp :: Grammars, чтобы я мог "тянуть" свое выражение через документ, пока он не найдет совпадения?

Спасибо

Matthew Lock · Answer 1 · 12 октября 2011

Regexp :: Grammars - это то, что я хотел, так как он позволяет вам перетаскивать свою грамматику через документ и находить совпадения как регулярное выражение Parse :: RecDescent не подходит для сканирования документа и поиска только текста, соответствующего грамматике.

Должен ли я использовать Parse :: RecDescent или Regexp :: Grammars для извлечения таблиц из документов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Должен ли я использовать Parse :: RecDescent или Regexp :: Grammars для извлечения таблиц из документов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы