ИМО основной задачей будет извлечение соответствующей информации из каждого канала в семантической форме. Википедия описывает коллажи как:
Есть много типов коллажей, таких как
как потребительские гибридные приложения, гибридные приложения данных и
корпоративные коллажи. Самый распространенный
тип коллажей является потребительским коллажем,
направленных на широкую публику.
Мешапы данных объединяют похожие типы
СМИ и информация из нескольких
источники в едином представлении.
Одним из примеров является AlertMap, который
объединяет данные из более чем 200 источников
связанные с суровыми погодными условиями,
угрозы биологической опасности и сейсмика
информация, и отображает их на
карта мира; другой Чикаго
Карта преступности, которая указывает на преступление
Уровень и место преступления в Чикаго.
Классический мэшап - преступление в Чикаго - работает, потому что ключевая информация, такая как даты и геолокации, доступна семантически. Другие типы общей информации - это лица, организации и доменные идентификаторы.
Когда вы определили их, вы можете рассмотреть инструменты на основе RDF, разрабатываемые семантической сетью. Обратите внимание, что правительства начинают передавать свои данные в RDF, поэтому я бы посчитал это ключевой технологией
Если ваши веб-страницы не содержат семантической информации сразу, вам, вероятно, придется создавать скребки экрана и парсеры HTML. Это не очень гламурно, нет специальных инструментов и это просто тяжелая работа.