Я работаю над проектом, который требует от меня написания кода для извлечения текста из файла HTML в Python.
#! /usr/bin/python
import os
import re
if __name__ == '__main__':
f = open('./results/sample_result.html')
soup = f.read()
p = re.compile("binary")
for line in soup:
m = p.search(line)
if m:
print "finally"
break
^ Пример кода, который я написал, чтобы проверить, могу ли я извлечь данные.Я написал несколько программ, похожих на эту, для извлечения текста из текстовых файлов почти одинаково, и они работали просто отлично.Есть что-то, что я упускаю в отношении регулярных выражений и HTML?