Могу ли я разобрать PDF-файл для очистки? - PullRequest
2 голосов
/ 07 августа 2020

Я пытался понять структуру Scrapy. Я просто начинаю использовать Scrapy с селеном для CSS - HTML. Мне также нужно разобрать некоторые PDF-файлы, чтобы очистить и проанализировать данные. Несмотря на то, что я конвертирую pdf в HTML на некоторых веб-сайтах конвертеров, я не мог его правильно проанализировать.

<p style="position:absolute;top:132px;left:334px;white-space:nowrap" class="ft20"><b>MUAM.</b></p>

Здесь у меня есть класс "ft20" , и я должен был использовать "MUAM."

<p style="position:absolute;top:148px;left:338px;white-space:nowrap" class="ft20"><b>ADET</b></p>

И здесь снова "ft20" класс в том же "DİV" или " SPAN ", но мне нужна таблица с этой информацией.

Итак, вопрос в том, что я должен использовать для правильной очистки PDF-файла. Кроме того, есть ли у вас какие-либо предложения по преобразованию из PDF в HTML?

Я хотел бы, чтобы вы поделились тем, что я пропустил и что я должен знать для начала.

...