Хороший язык для паука и индексатора - PullRequest
0 голосов
/ 22 августа 2009

Мне нравится Ruby и его фреймворк, но я не думаю, что Ruby On Rails - лучший выбор для разработки Feed-parser и Indexer.

Возможно, Python или Java - лучший выбор. Какой язык вы предлагаете?

Ответы [ 3 ]

1 голос
/ 22 августа 2009

Я думаю, что Ruby отлично подходит для любых задач такого рода:

Если вы знакомы с Ruby, я не вижу причин выкладываться на Java, Python et el. для большинства задач. Имейте в виду, что многие библиотеки Ruby работают на нативных реализациях.

1 голос
/ 22 августа 2009

Лента (RSS?) Обычно довольно хорошо структурирована (по крайней мере, по сравнению с обычной веб-страницей). Изучите Web Harvest , анализатор DOM на основе оболочки Java / bean (среди прочего). Вы можете использовать это для автоматизации сбора данных из Интернета. Существует предметно-ориентированный язык (определенный в XML), который вам придется выучить. Кривая обучения может быть немного крутой, но я чувствовал, что это того стоит.

0 голосов
/ 22 августа 2009

Я не очень знаком с Java, но могу сказать, что Python очень хорошо подходит для этой работы.

Существует очень быстрый модуль синтаксического анализа XML, называемый BeautifulStoneSoup, который вы можете использовать. Это часть библиотеки BeautifulSoup. И если вам нужен только простой индексатор, в Python встроен движок sqlite, который также легок и очень быстр.

...