Учитывая только URL, нельзя быть уверенным на 100%.Файлы RSS обычно имеют формат .xml, но для этого суффикса не требуется (насколько я могу судить).Если вы просто классифицируете на основе ".xml" или нет, у вас будет много ошибок - классификация большого количества файлов, не относящихся к RSS, как RSS, и некоторых, которые являются файлами RSS, как не-RSS.убедитесь, что вам нужно получить файл по указанным URL-адресам и проанализировать его.Вы, вероятно, должны найти библиотеку, чтобы сделать это, потому что синтаксический анализ это, вероятно, кошмар.Эта библиотека выглядит разумно: http://www.davidpashley.com/projects/eddie.html Возможно, вы могли бы загрузить содержимое каждого URL-адреса, передать его в библиотеку, и, если библиотека успешно проанализирует, пометить его как канал RSS или Atom.У вас могут быть ложные отрицания, но они будут встречаться реже, чем если бы вы пытались классифицировать на основе одного URL.
Если все, что вас беспокоит, это RSS и производительность - это проблема (т.е. вы не хотитечтобы загрузить парсер SAX для каждого файла), вы можете прочитать спецификацию RSS (http://cyber.law.harvard.edu/rss/rss.html)) и просто выполнить простую строку для поиска файлов, которые выглядят широко, как будто они являются файлами RSS. У вас будет больше ложныхположительные (и, возможно, некоторые ложные отрицательные), но это будет быстрее. Все зависит от того, сколько времени вы хотите потратить на это и насколько вы должны быть. Но чтобы иметь какую-либо точность, вам нужно бытьзагружая каждый файл, чтобы проверить это.