Я заинтересован в расширении Scrapy для своего проекта, добавив собственный тип ResponseType.Сейчас я хочу добавить тип PDF, который будет использовать PDFMiner для возврата простого текста и структуры документа (включая ссылки).Возможно, я захочу добавить другие типы документов позже.
Похоже, что сопоставление типов MIME с классами ответов происходит в scrapy.responsetypes - в частности, в словаре CLASSES
в ResponseTypes
,Однако не ясно, если / как это должно быть переопределено пользовательскими классами ответов.На переменную responsetypes
в конце этого файла ссылаются непосредственно в нескольких других местах, и я не вижу никакой ссылки на этот класс в настройках проекта Scrapy.Кроме того, я не смог найти ничего о том, как это сделать, в документации по Scrapy.
Я мог бы, конечно, разветвить Scrapy и использовать свою собственную версию с определенными пользовательскими классами, но это привело бы к головной боли при обслуживании.
Какой лучший способ определения пользовательских типов ответов в Scrapy?