Извлечение может означать разные вещи для разных людей. Одно дело - иметь дело со всем искаженным HTML, и Beautiful Soup - явный победитель в этом отделе. Но Б.С. не скажет вам, что такое гадость и что такое мясо.
Вещи выглядят иначе (и безобразно), если рассматривать извлечение контента с точки зрения вычислительного лингвиста. При анализе страницы меня интересует только конкретное содержимое страницы, за исключением всей навигации / рекламы / и т. Д. хлам. И вы не сможете начать заниматься интересными вещами - анализом совпадений, обнаружением фраз, генерацией вектора взвешенных атрибутов и т. Д. - пока не избавитесь от лишнего.
Первая статья, на которую ссылается ФП, указывает на то, что именно этого они и пытались достичь - проанализировать сайт, определить общую структуру, а затем вычесть это и вуаля! у вас есть только мясо - но они обнаружили, что это было тяжелее, чем они думали. Они подходили к проблеме с улучшенной точки зрения доступности, в то время как я был на раннем этапе поиска, но мы оба пришли к одному и тому же выводу:
Трудно отделить мясо от мяса. И (читать между строк вашего вопроса) даже после того, как это масло удалено, без тщательно примененной семантической разметки крайне трудно определить «авторский замысел» статьи. Вывести мясо с сайта, подобного citeseer (аккуратно и предсказуемо с очень высоким отношением сигнал / шум), на 2 или 3 порядка проще, чем при работе со случайным веб-контентом.
Кстати, если вы имеете дело с более длинными документами, вас может особенно заинтересовать работа, проделанная Марти Херст (сейчас профессор в Калифорнийском университете в Беркли). Ее кандидатская диссертация и другие работы по обнаружению подтем в больших документах дали мне глубокое понимание создания чего-то похожего в небольших документах (с которыми, на удивление, может быть сложнее иметь дело). Но вы можете сделать это только после того, как избавитесь от промаха.
Для тех, кому это может быть интересно, вот некоторая предыстория (возможно, не по теме, но я сегодня в таком настроении):
В 80-х и 90-х годах нашими клиентами были в основном правительственные учреждения, чьи глаза были больше, чем их бюджеты, и чьи мечты делали Диснейленд серым. Они собирали все, что могли, и затем искали технологию «серебряной пули», которая каким-то образом ( гигантская ручная волна ) извлекала «смысл» документа. Правильно. Они нашли нас, потому что мы были этой странной маленькой компанией, которая проводила «поиск по подобию контента» в 1986 году. Мы дали им пару демонстраций (настоящих, а не фальшивых), которые взволновали их.
Одна из вещей, которые мы уже знали (и им потребовалось много времени, чтобы поверить нам), заключалась в том, что каждая коллекция отличается от других и нуждается в собственном специальном сканере для устранения этих различий. Например, если все, что вы делаете - это жонглируете газетными историями, жизнь довольно легка. Заголовок в основном рассказывает вам что-то интересное, и история написана в стиле пирамиды - первый или два абзаца содержат в себе суть кто / что / где / когда, а затем следующие пункты раскрывают эту тему. Как я уже сказал, это легко.
Как насчет журнальных статей? О Боже, не заводи меня! Названия почти всегда бессмысленны, и структура меняется от одного магазина к другому, и даже от одного раздела к другому. Возьмите копию Wired и копию Atlantic Monthly. Взгляните на основную статью и постарайтесь выяснить значимый 1 абзац абзаца о статье. Теперь попробуйте описать, как программа может выполнить то же самое. Применяется ли один и тот же набор правил ко всем статьям? Даже статьи из того же журнала? Нет, не делают.
Извините, что звучу как обманщик, но эта проблема действительно трудная .
Как ни странно, главная причина того, что Google столь же успешен, как и он (с точки зрения поисковой системы), заключается в том, что они придают большое значение словам в ссылке и вокруг ссылки с другого сайта . Этот текст ссылки представляет собой своего рода мини-сводку , сделанную человеком сайта / страницы, на которую он ссылается, именно то, что вы хотите, когда ищете. И это работает почти во всех жанрах / стилях размещения информации. Это позитивно блестящее понимание, и мне бы хотелось, чтобы оно у меня было. Но это не принесло бы пользы моим клиентам, потому что не было никаких ссылок от вчерашних выпусков московских телепередач на какое-то случайное телетайпное сообщение, которое они захватили, или на какую-то ужасную версию OCR египетской газеты.
/ мини-декламация-и-трип-вниз памяти полоса