У меня есть пользовательский словарь файла docx, в котором слова, которые нужно определить, указаны в верхнем регистре и выделены жирным шрифтом.Это единственное отличие от других слов.Определения часто бывают большими и со строками между ними, поэтому он создает новый абзац.Как образец:
A
ASDFG это означает бла.Blah происходит от aakak
Это то же самое определение для ASDFG
MUG, означающего кружку
ABBA музыкальная группа
Я хочу отделить параграфыправильно отсортировать по слову, чтобы определить (слово верхнего регистра) по алфавиту.Это то, что у меня есть
for p in document.paragraphs:
if p.text.split(' ', 1)[0].isupper():
#save as paragraph
paragraph1 = text
else:
#concatenate to previews paragraph
paragraph1 = text[-1] + text
Требуемый выход
A
Определение ABBA
Определение ASDFG
M
Определение кружки
Спасибо!