Я создаю механизм сравнения покупок, и мне нужно создать механизм сканирования для ежедневного сбора данных.
Я решил собрать сканер в C #. У меня много плохого опыта с классами HttpWebRequest / HttpWebResponse, и они, как известно, очень глючные и нестабильные для больших сканирований. Поэтому я решил НЕ строить на них. Даже в фреймворке 4.0 они глючат.
Я говорю по своему личному опыту.
Мне бы хотелось узнать мнение экспертов, которые занимались разработкой кодировщиков, если они знают о каких-либо хороших инфраструктурах сканирования с открытым исходным кодом, таких как java, с общедоступными библиотеками nutch и apache, которые являются очень стабильными и очень надежными библиотеками.
Если в C # уже есть какие-то фреймворки для сканирования, я сделаю свое приложение поверх них.
Если нет, то планирую расширить это решение из кода проекта и расширить его.
http://www.codeproject.com/KB/IP/Crawler.aspx
Если кто-нибудь может предложить мне лучший путь, я буду очень благодарен.
РЕДАКТИРОВАТЬ: Некоторые сайты, которые я должен сканировать, отображают страницу с использованием очень сложных сценариев Java, теперь это добавило сложности моим веб-сканерам, поскольку мне нужно иметь возможность сканировать страницы, отображаемые с помощью JavaScript. Если кто-то использовал какую-либо библиотеку в C #, которая может сканировать визуализированный JavaScript, пожалуйста, поделитесь. Я использовал ватин, который я не предпочитаю, и я также знаю о селене. Если вы знаете что-либо, кроме этого, пожалуйста, поделитесь со мной и сообществом.