Question

Я пытаюсь извлечь текст из файла htm в моем блокноте jupyter.Сначала я читаю файл, используя: with open('Materials.htm') as file b: file3=b.readlines() file3=''.join(file3)

Затем я анализирую файл и использую get_text ().

Stock_page=BeautifulSoup(file3, 'lxml')
   for movers_name in Stock_page('td',style="text-align:left;"):
       movers=list()
       movers.append(movers_name.get_text())
       print(movers)

Этот код печатает список, но также выдает

AttributeError: объект 'NoneType' не имеет атрибута 'get_text'

Iхочу поместить это в цикл for для чтения разных файлов, но с ошибкой это не работает.Кто-нибудь знает, что я делаю не так?Чем ты!

prithajnath · Answer 1 · 25 августа 2018

Вы должны передать объект файла так же, как он есть в BeautifulSoup и проанализировать его как HTML.

with open('Materials.htm','r') as f:
    Stock_page = BeautifulSoup(f, "html.parser")

Извлечение текста из HTML-файла дает ошибку атрибута

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение текста из HTML-файла дает ошибку атрибута

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов