Во-первых, это не вопрос о том, как очищать сайты. Я полностью осведомлен о доступных мне инструментах для чистки (css_parser, nokogiri и т. Д. Я использую Ruby для выполнения очистки).
Это скорее всеобъемлющий вопрос о наилучшем из возможных решений по очистке логотипа веб-сайта, начинающегося только с адреса сайта.
Два решения, которые я начал создавать, это:
- Используйте API Google AJAX, чтобы выполнить поиск изображений, относящийся к рассматриваемому сайту, с помощью запроса "логотип" и получить первый результат. Я бы сказал, что это логотип примерно в 30% случаев.
- Проблема с вышесказанным заключается в том, что Google, похоже, не особо заботится о логотипах, заменяющих изображение CSS (т. Е. Текст H1, представляющий собой изображение, замененное логотипом). Решение, которое я предварительно нашел, состоит в том, чтобы снять все CSS-файлы, отсканировать объявления url (), а затем найти заголовок или логотип слов в именах файлов.
Решение второе проблематично из-за множества особенностей всех людей, которые пишут CSS для веб-сайтов. Они используют заголовок вместо логотипа в имени файла. Иногда имя файла случайное, ничего не говоря о логотипе. В других случаях это просто неправильное изображение.
Я понимаю, что я мог бы быть в состоянии что-то сделать с помощью какого-то машинного обучения, но я нахожусь на каком-то крайнем сроке для клиента и мне нужно что-то достаточно способное в ближайшее время.
Так что со всем, что сказано, если у кого-нибудь есть какие-то «из коробки» мысли на этот счет, я бы хотел услышать это. Если я смогу создать решение, которое будет работать достаточно хорошо, я планирую открыть библиотеку для других заинтересованных сторон:)
Спасибо!