Я хотел бы начать работать с анализом большого количества необработанных HTML-страниц в семантических структурах данных.
Просто интересует мнение сообщества о различных доступных инструментах для такой задачи, особенно о различных полезных библиотеках на любом языке.
Пока что планируем использовать Hadoop для управления большой частью обработки, но любопытно узнать об альтернативах.