Какой язык программирования мне следует использовать, если я хочу очистить RSS-канал? - PullRequest
1 голос
/ 05 января 2011

Я не был уверен, что один лучше использовать, чем другой, т.е.Java, PHP или Perl.

Ответы [ 6 ]

4 голосов
/ 05 января 2011

Лучший из них - тот, с которым вам удобнее всего работать.

1 голос
/ 05 января 2011

Это не имеет особого значения, если вы используете правильные инструменты для выполнения работы.

Необходимо учитывать, где вы развертываете свое приложение (веб или настольный компьютер), сколько времени вы хотите потратить на изучение новой технологии / языка, а также наличие библиотек для разбора RSS и / или XML и / или HTML. Тем не менее, три названных вами языка являются хорошими кандидатами.

0 голосов
/ 05 января 2011

Если вы пишете серверное приложение, которое должно часто запускаться и агрегировать контент на большом количестве сайтов, то производительность должна стать для вас важным критерием. Это будет означать язык, способный быстро обрабатывать большой объем данных.

Если вам просто нужна программа, которая иногда запускается и выбирает биты данных со многих страниц, тогда вы можете рассмотреть специализированный язык. Продукт TestPlan предлагает очень простой язык, который позволит вам быстро захватывать RSS-контент и демонстрировать его простым способом.

Я использовал его в некоторых важных проектах по соскобам. Скрипты, хотя и не слишком быстрые, очень просты в обслуживании.

0 голосов
/ 05 января 2011

Если вы сильнее с одной конкретной технологией и у вас есть тупик (или другие факторы), тогда используйте эту технологию, поскольку у них всех есть возможности.

Если это не так, то это соответствует требованиям проекта, который вы предпринимаете, а также, если вы хотите / способны освоить новую технологию.

PHP является наиболее естественнымвеб-технологии, и вы можете использовать такую ​​библиотеку, как Simple HTML DOM Parser (она также поддерживает XML), чтобы получить быстрые результаты, а также углубиться в сложности веб-анализа, которые также поддерживает PHP.

У Java есть замечательный проект под названием Web Harvest , который я использовал в прошлом с хорошими результатами (несмотря на то, что вы изучали нестандартный синтаксис XML, но он похож на xslt) и один разваша система настроена, ваш веб-скребок может быть легко изменен.

Perl является самым сильным, когда дело доходит до регулярных выражений (Java и особенно PHP могут стать немного запутанными при работе с регулярными выражениями, как я нахожу), и регулярные выражения - это хороший навык, который нужно иметь в зависимости от того, что вы хотите делать синформация, это также многозначительный вариант.

0 голосов
/ 05 января 2011

Код платформы может быть любым, но рассмотрите возможность использования XSL-преобразований (или запросов XPath), чтобы получить XML в более приемлемом формате.Espec.если вы ищете небольшие подмножества данных или отдельные значения.

Вряд ли это «соскоб», если исходные данные изначально предназначались для машинного анализа.:)

0 голосов
/ 05 января 2011

RSS-файлы - это просто отформатированный XML, который вы получаете через Интернет.Все, что вам нужно в языке, - это то, что он может сделать HTTP-запрос и имеет способы для анализа XML.

...