Извлечение табличных данных из файлов RTF в Python - PullRequest
0 голосов
/ 14 января 2020

Мне нужно извлечь данные таблицы из файлов RTF, но я не могу найти какие-либо решения в этом отношении. Может кто-нибудь предложить решение или сделал это раньше, и готов показать мне dawae? В настоящее время я пытаюсь изменить то, что я определяю как начало и конец таблицы, на что-то вроде окружности.

Я получил только начало таблицы, что-то вроде

\par \ltrrow}

, но для конец таблицы, я не могу найти подходящий синтаксис ....

Заранее спасибо. :)

1 Ответ

0 голосов
/ 14 января 2020

Вот пример преобразования формата rtf в открытый текст с использованием регулярного выражения

import re

text = r"{\rtf1\ansi\ansicpg1252\deff0\deflang1033{\fonttbl{\f0\fnil\fcharset0 MS Shell Dlg 2;}{\f1\fnil MS Shell Dlg 2;}} {\colortbl ;\red0\green0\blue0;} {\*\generator Msftedit 5.41.15.1507;}\viewkind4\uc1\pard\tx720\cf1\f0\fs20 can u send me info for the call plsssss\f1\par }"

x = re.sub(r"{\*?\\.+(;})|\s?\\[A-Za-z0-9]+|\s?{\s?\\[A-Za-z0-9]+\s?|\s?}\s?", "", text)
print(x)
...