Я хотел бы вычеркнуть все английские слова, скажем, с первой страницы New York Times.Я написал что-то вроде этого в Python:
import re
from urllib import FancyURLopener
class MyOpener(FancyURLopener):
version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
opener = MyOpener()
url = "http://www.nytimes.com"
h = opener.open(url)
content = h.read()
tokens = re.findall("\s*(\w*)\s*", content, re.UNICODE)
print tokens
Это хорошо работает, но я получаю ключевые слова HTML, такие как "img", "src", а также английские слова.Есть ли простой способ получить только английские слова из веб-scaping / HTML?
Я видел этот пост, кажется, он говорит только о механизме очистки, ни один из упомянутых инструментов не говорит о том, как отфильтровать неязыковые элементы.Меня не интересуют ссылки, форматирование и т. Д. Просто простые слова.Любая помощь будет оценена.