Использование НЛП / машинного обучения для структурирования необработанного текста в разделы - PullRequest
0 голосов
/ 07 июня 2019

У меня большой PDF-документ (с техническим содержанием).Содержание структурировано по главам, разделам, подразделам.Некоторые из глав содержат иерархические списки (с элементами и подпунктами), некоторые - простой текст, некоторые - таблицы.Что мне нужно, это проанализировать PDF и разбить текст на мельчайшие части, следуя структуре документа.Поэтому позже я смогу работать с каждым разделом (как текст) отдельно.Я планирую сделать это с помощью Python.

Можете ли вы подсказать мне общую стратегию, как это сделать.

Я кратко исследовал, как анализировать PDF, и это, кажется, самое простое решение для использования Xpdf .Вывод все еще не идеален, но намного лучше, чем результат моих базовых экспериментов с PyPDF2 .

Но затем наступает самая сложная часть - как структурировать этот необработанный вывод (фактически строку), разделивэто в разделах, согласно основному PDF.Думаю, мне следует использовать некоторые библиотеки NLP, такие как nltk или scikit-learn , но я не уверен, с чего начать.Какой подход и алгоритмы мне выбрать для этого.В конечном итоге я хочу иметь массив разделов (в виде текста), который я буду хранить как древовидную структуру.

...