Извлечение текста из HTML-файла дает ошибку атрибута - PullRequest
0 голосов
/ 25 августа 2018

Я пытаюсь извлечь текст из файла htm в моем блокноте jupyter.Сначала я читаю файл, используя: with open('Materials.htm') as file b: file3=b.readlines() file3=''.join(file3)

Затем я анализирую файл и использую get_text ().

Stock_page=BeautifulSoup(file3, 'lxml')
   for movers_name in Stock_page('td',style="text-align:left;"):
       movers=list()
       movers.append(movers_name.get_text())
       print(movers)

Этот код печатает список, но также выдает

AttributeError: объект 'NoneType' не имеет атрибута 'get_text'

Iхочу поместить это в цикл for для чтения разных файлов, но с ошибкой это не работает.Кто-нибудь знает, что я делаю не так?Чем ты!

1 Ответ

0 голосов
/ 25 августа 2018

Вы должны передать объект файла так же, как он есть в BeautifulSoup и проанализировать его как HTML.

with open('Materials.htm','r') as f:
    Stock_page = BeautifulSoup(f, "html.parser")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...