У меня есть некоторые локально сохраненные файлы. html, и я пытаюсь прочитать текст, который я использую для дальнейшей предварительной обработки данных. Однако моя программа всегда отображает код html в начале, а не просто текст. Это только начало, остальная часть документа выглядит хорошо (просто текст и без кода html)
Я уже пробовал разные методы (с urllib, beautifulsoup или кодеками), но на самом деле не добился успеха и я не знаю, где искать проблему. Мой код выглядит следующим образом:
original = open("path/1.html", "r")
original_text = original.read()
bs = BeautifulSoup(original_text)
f_out = open("path/1.ann", "w")
при открытии файлов .ann это то, что я вижу в начале. После этого отображается просто текст:
<!DOCTYPE html >
<html id="a2gEWnT1MVFW6UkGVvB8Yxeiawb0-27" data-origid="27" class="anndoc" data-anndoc-version="3.6" lang="" xml:lang="" xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta charset="UTF-8"/>
<meta name="generator" />
<title></title>
</head>
<body>
<article>
<section data-type="">
<div class="content">
<p id="s1p1">"
normal text being displayed here
Кто-нибудь может понять, почему программа не может правильно проанализировать текст из файла. html или что я пропустил?
Спасибо!