Какой правильный инструмент ETL использовать для сбора пользовательских данных из информации журнала - PullRequest
0 голосов
/ 11 ноября 2010

Мне нужно собирать и хранить большое количество данных из разных типов файлов журналов, но перед этим необходимо отфильтровать определенные поля для извлечения только необходимой информации. Так что я думаю о возможности использовать инструмент ETL, чтобы сделать грязную службу для меня. Моя идея состоит в том, чтобы создать решение на основе файлового соединителя, запрограммировать или настроить процессы преобразования и, наконец, развернуть это решение на машинах Linux для возможности наблюдения за файлом на лету, извлечения необходимой информации и сохранения ее, например, в базе данных.

Итак, мой вопрос. Какой инструмент с открытым исходным кодом является более подходящим, гибким и более KISS для этой работы?

Скриптелла, Чайник, Талант или другое?

Опять же, для работы с журнальными / текстовыми файлами существует как инструмент де-факто?

Мужественное намерение и цель - создать эффективное решение для просмотра, извлечения журналов и хранения данных в форматах журналов районов.

Thx!

1 Ответ

1 голос
/ 11 ноября 2010

Лучшая комбинация, на мой взгляд, заключается в следующем: реализация с уменьшением карты, такая как apache hadoop или gridgain или JPPF (для обработки больших наборов данных) + jdmp для анализа данных + NoSQL db для запросов и поиска (neo4j или Bigtable и т. д.). До сих пор не ясно, каков точный вариант использования; -)

Также посмотрите эту ссылку для получения более подробной информации: Знаете ли вы инструменты обработки журналов партии для hadoop (альтернативы zohmg)?

...