Я пытался понять структуру Scrapy. Я просто начинаю использовать Scrapy с селеном для CSS - HTML. Мне также нужно разобрать некоторые PDF-файлы, чтобы очистить и проанализировать данные. Несмотря на то, что я конвертирую pdf в HTML на некоторых веб-сайтах конвертеров, я не мог его правильно проанализировать.
<p style="position:absolute;top:132px;left:334px;white-space:nowrap" class="ft20"><b>MUAM.</b></p>
Здесь у меня есть класс "ft20" , и я должен был использовать "MUAM."
<p style="position:absolute;top:148px;left:338px;white-space:nowrap" class="ft20"><b>ADET</b></p>
И здесь снова "ft20" класс в том же "DİV" или " SPAN ", но мне нужна таблица с этой информацией.
Итак, вопрос в том, что я должен использовать для правильной очистки PDF-файла. Кроме того, есть ли у вас какие-либо предложения по преобразованию из PDF в HTML?
Я хотел бы, чтобы вы поделились тем, что я пропустил и что я должен знать для начала.