Обнаружение ссылок на таблицы и изображения в тексте. - PullRequest
0 голосов
/ 09 октября 2018

Я строю систему вопросов и ответов для конкретного домена.Я хотел определить, содержит ли абзац ссылку на таблицу, изображение или список в этом разделе или в каком-либо другом разделе, в основном обнаруживать фразы, аналогичные «см. Таблицу ниже ...», «см. Изображение ...»,включите монитор, выполните шаги .... 'и т. д.

1 Ответ

0 голосов
/ 09 октября 2018

Очень очень очень очень очень очень открытый вопрос.Такие вопросы не продвигаются на SO. Пожалуйста, ознакомьтесь с рекомендациями по переполнению стека, чтобы задать хороший вопрос.

Если у вас нет достаточного количества обучающих данных, я бы просто создал систему на основе правил, которая бы соответствовала словам (послеудаление стоп-слов и stemming) в небольших окнах текста.Помните, что в большинстве простых сценариев вам фактически не требуется НЛП или ИИ.

Если возможно, я бы подумал с точки зрения маркировки последовательностей.Это потребует значительных усилий при подготовке данных тренировки.Вот как будут выглядеть данные обучения:

the trend is evident in the table below which is explained... 
 O    O   O  BEGREF  REF REF REF  ENDREF O    O    O

Но помните, что для этого потребуется большой объем данных.

Получив данные, вы можете просто использовать Маллет для использования HMM илиCRF на тренировку.

...