для цикла, чтобы он работал на всех PDF-файлах в каталоге : посмотрите на глобальный модуль
сохраните текст как CSV : посмотрите намодуль csv
количество фотографий : посмотрите на модуль pyPDF: -)
Два комментария к этому утверждению:
content = " ".join(content.replace(u"\xa0", " ").strip().split())
(1)Нет необходимости заменять NBSP (U + 00A0) пробелом, потому что NBSP (естественно) считается пробелом unicode.split()
(2) Использование strip () избыточно:
>>> u" foo bar ".split()
[u'foo', u'bar']
>>>