тика не читает латекс pdf правильно - PullRequest
0 голосов
/ 01 апреля 2019

Я работаю над веб-приложением, которое имеет дело с резюме, и мне нужно извлечь имя.

Итак, я создал функцию, которая возвращает текст pdf, используя Tika

from tika import parser
def get_text(path):
    content = parser.from_file(path)
    return content['content']

И еще одна функция для извлечения имени

import nltk
from nltk.corpus import stopwords
import enchant
def extract_name(document):
    names = []
    d = enchant.Dict("en_US")
    sentences = tokenize(document)
    for sentence in sentences:
        for s in sentence:
            if not d.check(s[0]):
                names.append(s[0])

    return " ".join(names[:2])

print(extract_name(get_text("CV-Fabien_Boutantin_fr_2005.pdf")))
print(extract_name(get_text("My_CV.pdf")))

Первый тест прошел успешно, и я получил следующий вывод

BOUTANTIN BOUTANTIN

Однако он не работал правильнодля моего резюме, и я получил это:

2mmMohamed Amine2mm

В моем латексе у меня есть это:

\firstname{\vspace{2mm}Mohamed Amine\vspace{2mm}}
\lastname{MESSAOUDI}

Я думаю, что есть проблема с Тикой, когда речь идет о чтениилатекс pdf

...