Я работаю над этой же проблемой уже более 2 недель, и должен сказать, что это довольно сложная задача. У меня был некоторый успех в поиске класса php для извлечения текста, но проблема в том, что он не будет работать на всех версиях .pdf формата, в который он попал. А самому ударить по барабану потребуется время, чтобы разобраться с проблемами кодирования и сжатия. Сейчас я на самом деле смотрю на некоторые библиотеки Python. Мне просто слишком много времени, чтобы написать один из них с нуля.