Какой язык лучше всего подходит для этого редактора и сборщика проектов? - PullRequest
2 голосов
/ 11 августа 2009

Я ищу агрегатор для редакционных и редакционных страниц множества англоязычных газет, за которыми я хочу следить. Цель состоит в том, чтобы создать HTML-код, представляющий собой просто набор редакционных статей из десятка газет, которым я хочу следовать по всему миру, чтобы я мог распечатать их утром. Поскольку это очень узкое требование, я не смог найти ничего доступного, поэтому думаю написать его самостоятельно.

Теперь я был программистом в течение ~ 8 лет в моей предыдущей жизни (и теперь меня склонили на «Темную сторону», то есть на Уолл-стрит после моей MBA). Сегодня я недостаточно осведомлен о программировании, чтобы сделать хороший выбор на языке сценариев, поэтому не уверен, какой из них будет лучшим языком (производительность не является ключевой проблемой, библиотеки для разбора HTML, обработка текста, а также извлечение данных живые веб-страницы важнее).

PS: я не против изучения нового языка (ранее я много работал с x86 ASM, C и Visual C ++ / MFC) почти исключительно в средах Win32.

Ответы [ 2 ]

1 голос
/ 11 августа 2009

Используйте Python и превосходную библиотеку lxml для очистки HTML. Он поддерживает CSS-селекторы, что очень удобно и довольно быстро. Он хорошо справляется и с битым HTML.

0 голосов
/ 11 августа 2009

интерпретируемые языки хорошо справляются с генерацией кода, вы должны подумать о Perl или Ruby

...