Прочитать текстовый файл и преобразовать HTML в простой текст определенного столбца в pyspark - PullRequest
0 голосов
/ 11 ноября 2019

У меня есть текстовый файл (mdcl_insigt.txt), в котором есть столбец «descn». Этот столбец имеет некоторое содержимое в формате HTML. Поэтому я хочу преобразовать HTML в простой текст и сохранить файл. Не могли бы вы помочь мне, как это сделать?

Имя файла -

mdcl_insigt.txt

Пример содержимого столбца 'descn':

PROTEUSÂ <div><br></div><div>We are struggling with pathology. We don&#39;t control specimens of prostatectomy. The hospital pathology is not cooperating. I am reaching out to another hospital. You have pretty intense manual guidelines on pathology in the [PROTEUS] protocol for managing of RP [specimens]. Please e-mail me with work around options.</div>

должно преобразовываться следующим образом:

PROTEUS We are struggling with pathology. We don't control specimens of prostatectomy. The hospital pathology is not cooperating. I am reaching out to another hospital. You have pretty intense manual guidelines on pathology in the [PROTEUS] protocol for managing of RP [specimens]. Please e-mail me with work around options.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...