Scrapy , вероятно, лучшая библиотека Python для сканирования. Он может поддерживать состояние для аутентифицированных сеансов.
Работа с двоичными данными должна обрабатываться отдельно. Для каждого типа файлов вам придется обрабатывать его по-разному в соответствии с вашей собственной логикой. Почти для любого формата вы, вероятно, сможете найти библиотеку. Например, посмотрите на PyPDF для обработки PDF-файлов. Для файлов Excel вы можете попробовать xlrd.