Python - анализ текста для разделителя строк и добавление HTML-тегов для новых строк и абзацев - PullRequest
0 голосов
/ 24 апреля 2019

Я наследую CSV-файл, в котором @@@ имеет разделитель строк. Я создал некоторый код Python для разделения на @@@ и разделения текста на отдельные строки. Моя проблема в том, что исходный текст отформатирован с абзацами и новыми строками, но мой код как-то объединяет все вместе. Это войдет в форму MS Access, чтобы люди могли просматривать медицинские записи. Это было бы идеально для основного оригинального формата. Поскольку я не думаю, что это возможно, я надеялся, что вместо этого я смогу добавить html-тег «br» для новой строки и html-тег «p» для абзаца. Моя проблема в том, что я не знаю, как получить Python для новых строк или разбиения абзаца.

Мой вывод выглядит так (НЕ ИДЕАЛЬНО):

ID | Reporttext

1 | Сахарный диабет (СД), широко известный как диабет, является группа метаболических нарушений, характеризующихся высоким уровнем сахара в крови в течение длительного периода. Диабет из-за либо поджелудочной железы не вырабатывает достаточно инсулина, или клетки организма не отвечают правильно вырабатывается инсулин. Есть три основных типа диабета mellitus: - СД типа 1 является результатом неспособности поджелудочной железы производить достаточно инсулина из-за потери бета-клеток. Эта форма была ранее упоминается как «инсулинозависимый сахарный диабет» (IDDM) или «ювенильный "Диабет". Причина неизвестна. - Тип 2 СД начинается с инсулина резистентность, состояние, при котором клетки не реагируют на инсулин должным образом. По мере прогрессирования заболевания может также развиваться недостаток инсулина.

2 | Гестационный диабет является третьей основной формой и возникает во время беременности у женщин без предыстории диабета повышается уровень сахара в крови уровни. Не болейте диабетом, и с вами все будет в порядке! '

(см. Код для ссылок на фразы) Я хочу иметь возможность добавлять теги html, чтобы моя форма расширенного текста MS Access поддерживала разрыв строки и форматирование абзаца. Например, в первом абзаце я хотел бы, чтобы тег «p» появлялся после «длительного периода». и в третьем абзаце тег «br» будет стоять после «Причина неизвестна». Заранее спасибо!

t = '@@@ Diabetes mellitus (DM), commonly known as diabetes, is a 
group of metabolic disorders characterized by high blood sugar levels 
over a prolonged period.  

Diabetes is due to either the pancreas not producing enough insulin,
or the cells of the body not responding properly to the insulin produced.
There are three main types of diabetes mellitus:

- Type 1 DM results from the pancreas' failure to produce enough insulin 
due to loss of beta cells. This form was previously referred to 
as "insulin-dependent diabetes mellitus" (IDDM) or "juvenile 
diabetes".The cause is unknown.
- Type 2 DM begins with insulin resistance, a condition in which cells 
fail to respond to insulin properly. As the disease progresses, a lack of 
insulin may also develop. 

@@@ Gestational diabetes is the third main form, and occurs when pregnant 
women without a previous history of diabetes develop high blood sugar 
levels. 

Do not get diabetes and you will be okay!'

data = list(enumerate( (x.strip() for x in t.split("@@@") if x.strip()),
1))

print(data)
print("")

import csv
with open("t.txt", "w", newline = "") as csvfile:
   writer = csv.writer(csvfile, delimiter='|')
   writer.writerow(('ID', 'Reporttext'))
   writer.writerows(data)

print( open("t.csv").read())
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...