есть ли в nlp какая-либо функция или модуль, который найдет определенные c заголовки абзаца - PullRequest
0 голосов
/ 09 марта 2020

У меня есть текстовый файл. Мне нужно определить конкретные c заголовки абзацев, и если это правда, мне нужно извлечь соответствующие таблицы и абзацы с этим заголовком, используя python. мы можем сделать это с помощью NLP или машинного обучения? если да, пожалуйста, помогите мне собрать основы, так как я новичок в этой области. Я думал об использовании правила вроде:

if (прописная буква) и heading_length <50: return heading_text </p>

how я могу проанализировать весь документ и выбрать только имена заголовков? это все равно что автоматизировать вмешательство человека, щелкнув документ, выделив нужную тему и подняв его.

, пожалуйста, помогите мне в этом

Ответы [ 2 ]

1 голос
/ 09 марта 2020

Вам, вероятно, не нужен НЛП или машинное обучение для обнаружения этих заголовков. Выясните, какое правило вы действительно хотите, и, если оно действительно такое простое, как написанное вами, регулярного выражения будет достаточно. Если ваш текст отформатирован (например, с использованием HTML), он может быть еще проще.

Если, однако, вы не можете найти правило и ваш текст не отформатирован согласованно, ваша проблема будет сложной. решить.

0 голосов
/ 09 марта 2020

Я согласен с Лоргом. Хотя вы можете использовать НЛП, но это может только усложнить проблему. Эта проблема может быть проблемой оптимизации, если производительность является проблемой.

...