Любой из упомянутых вами языков может делать это, если вы используете правильные сторонние библиотеки, чтобы помочь вам.
Вам нужно что-то, что сканирует сайт. На самом деле, это может быть совершенно другая программа, которая просто загружает файлы .html на ваш компьютер, на котором вы затем запускаете анализатор. Такие роботы существуют, рассмотрите wget или curl - у них обоих есть варианты паука.
Вам понадобится парсер для сайта. Не используйте regexp для анализа HTML, используйте синтаксический анализатор HTML или XML (например, Perl's HTML :: Parser ). Затем вам придется преобразовать полученную структуру данных в пригодные для использования данные (например, первая таблица> tr> td - это имя монстра, вторая td - это раса и т. Д.
Наконец, вам нужно будет сохранить их в своей базе данных таким образом, чтобы вы позже могли восстановить их для обслуживания вашего сайта.
На самом деле, написание кода не будет самым трудным делом, но отображение «какой элемент на странице означает, что и где следует хранить, где и как» будет.