Я работаю над веб-приложением, которое имеет дело с резюме, и мне нужно извлечь имя.
Итак, я создал функцию, которая возвращает текст pdf, используя Tika
from tika import parser
def get_text(path):
content = parser.from_file(path)
return content['content']
И еще одна функция для извлечения имени
import nltk
from nltk.corpus import stopwords
import enchant
def extract_name(document):
names = []
d = enchant.Dict("en_US")
sentences = tokenize(document)
for sentence in sentences:
for s in sentence:
if not d.check(s[0]):
names.append(s[0])
return " ".join(names[:2])
print(extract_name(get_text("CV-Fabien_Boutantin_fr_2005.pdf")))
print(extract_name(get_text("My_CV.pdf")))
Первый тест прошел успешно, и я получил следующий вывод
BOUTANTIN BOUTANTIN
Однако он не работал правильнодля моего резюме, и я получил это:
2mmMohamed Amine2mm
В моем латексе у меня есть это:
\firstname{\vspace{2mm}Mohamed Amine\vspace{2mm}}
\lastname{MESSAOUDI}
Я думаю, что есть проблема с Тикой, когда речь идет о чтениилатекс pdf