Прежде всего я проверил эту тему: Что делать с CID в тексте, извлеченном PDFMiner? , но это не ответ на этот вопрос.
Я получаю символы в моемтекст из pdf, например: (cid:32)(cid:76)(cid:97)(cid:116)(cid:101) (cid:80)(cid:97)(cid:121)(cid:109) Hello
строк, подобных этой, приведенной выше, я храню в своем столбце данных df['data']
Я нашел код, который можно использовать для этого преобразования:
df:
val,data
1,(cid:32)(cid:76)(cid:97)(cid:116) man (cid:101) (cid:80)(cid:97)(cid:121)
2,(cid:32) hi (cid:76)(cid:97)(cid:116)(cid:101) (cid:80)(cid:97)(cid:121),
3,(cid:32)(cid:76)(cid:97)(cid:116)(cid:101) (cid:80)(cid:97) cat (cid:121)
code (not working):
if 'cid:' in df.iterrows():
[tab] text_str = text_str.strip('(')
[tab] text_str = text_str.strip(')')
[tab] ascii_num = text_str.split(':')[-1]
[tab] ascii_num = int(ascii_num)
[tab] text_val = chr(ascii_num)
return text_val
DoУ кого-нибудь есть идеи, как преобразовать это (cid: xx) значения?может быть, есть самый простой способ сделать это, может быть, прямо из pdfminer?