Я планирую написать веб-сканер для проекта НЛП, который будет читать структуру потока форума каждый раз через определенный промежуток времени и анализировать каждый поток с новым контентом. С помощью регулярных выражений извлекается автор, дата и содержание новых сообщений. Затем результат сохраняется в базе данных.
Язык и платформа, используемые для сканера, должны соответствовать следующим критериям:
- легко масштабируется на несколько ядер и процессор
- подходит для высоких нагрузок ввода / вывода
- быстрое совпадение регулярного выражения
- простота обслуживания / незначительные эксплуатационные расходы
После некоторых исследований я думаю, что Эрланг может быть подходящим кандидатом, но я читал, что он не очень хорош в обработке строк (и, следовательно, в сопоставлении регулярных выражений). Также у меня нет опыта в отношении фактора обслуживания.
Является ли Erlang хорошей технологией для сценария, описанного выше? А если нет, то что было бы хорошей альтернативой?