Я мало что знаю о html ...
Как удалить только текст со страницы?
Например, если HTML-страница читается как:
<meta name="title" content="How can I make money at home online? No gimmacks please? - Yahoo! Answers">
<title>How can I make money at home online? No gimmicks please? - Yahoo! Answers</title>
Я просто хочу извлечь это.
How can I make money at home online? No gimmicks please? - Yahoo! Answers
Я использую функцию re:
def striphtml(data):
p = re.compile(r'<.*?>')
return p.sub(' ',data)
но все же он не делает то, что я намерен сделать ..?
Вышеуказанная функция называется:
for lines in filehandle.readlines():
#k = str(section[6].strip())
myFile.write(lines)
lines = striphtml(lines)
content.append(lines)