Я читаю файл и использую регулярное выражение для содержимого файла для выполнения некоторых операций. При чтении файла я не нахожу в нем никаких специальных символов, но после использования регулярного выражения в содержимом файла и сохранения его в списке перед цифрами появляются специальные символы, такие как \ t и \ xa0.
Пример содержимого файла:
Hydrochloric Acid to pHÂ 3.3-5.0 q.s. q.s. q.s. pH-regulator Ph Eur, NF
После применения регулярное выражение становится:
Hydrochloric Acid to pHÂ\xa03.3-5.0\tq.s.\tq.s.\tq.s.\tpH-regulator\tPh Eur, NF
Как удалить все это без отдельных методов замены строк?
Код:
def extract(filename):
file=open(filename)
file=file.read()
print(file)
print("wefewwEF3RF3")
result = []
med = r"(?:{})".format("|".join(map(re.escape, medicines)))
pattern = re.compile(r"^\s*" + med + r".*(?:\n[^\w\n]*\d*\.?\d+[^\w\n]*(?:\n.*){2})?", re.M|re.IGNORECASE)
result = pattern.findall(file)
# result.encode('ascii', 'ignore')
newresult = []
for line in result:
newresult.append((line.strip()))
return newresult
Список newresult
содержит все эти специальные символы, которых нет в исходном файле.