Как конвертировать cid: символы в dataframe, вывод pdfminer - PullRequest
0 голосов
/ 25 сентября 2019

Прежде всего я проверил эту тему: Что делать с CID в тексте, извлеченном PDFMiner? , но это не ответ на этот вопрос.

Я получаю символы в моемтекст из pdf, например: (cid:32)(cid:76)(cid:97)(cid:116)(cid:101) (cid:80)(cid:97)(cid:121)(cid:109) Hello строк, подобных этой, приведенной выше, я храню в своем столбце данных df['data']

Я нашел код, который можно использовать для этого преобразования:

df:
    val,data
    1,(cid:32)(cid:76)(cid:97)(cid:116) man (cid:101) (cid:80)(cid:97)(cid:121)
    2,(cid:32) hi (cid:76)(cid:97)(cid:116)(cid:101) (cid:80)(cid:97)(cid:121),
    3,(cid:32)(cid:76)(cid:97)(cid:116)(cid:101) (cid:80)(cid:97) cat (cid:121)

code (not working):
    if 'cid:' in df.iterrows():
        [tab] text_str = text_str.strip('(')
        [tab] text_str = text_str.strip(')')
        [tab] ascii_num = text_str.split(':')[-1]
        [tab] ascii_num = int(ascii_num)
        [tab] text_val = chr(ascii_num)
        return text_val

DoУ кого-нибудь есть идеи, как преобразовать это (cid: xx) значения?может быть, есть самый простой способ сделать это, может быть, прямо из pdfminer?

...