Как я могу использовать входные журналы .PCAP (Binary) с картой Rreduce Hadoop - PullRequest
2 голосов
/ 07 августа 2009

Журналы Tcpdumps - это двоичные файлы, я хочу знать, какой FileInputFormat из hadoop мне следует использовать для разбиения порций входных данных ... пожалуйста, помогите мне !!

Ответы [ 3 ]

2 голосов
/ 09 августа 2009

В списке пользователей была тема об этом: http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward

По сути, формат не разделяемый, так как вы не можете найти начало записи, начинающейся с произвольного смещения в файле. Таким образом, вы должны выполнить некоторую предварительную обработку, вставив точки синхронизации или что-то подобное. Может быть, преобразовать меньшие файлы в файлы последовательности, а затем объединить небольшие файлы последовательности?

Если вы пишете что-то многоразовое, рассмотрите возможность внести свой вклад в проект.

1 голос
/ 03 декабря 2011

Недавно мы выпустили библиотеку для файлов формата PCAP: https://github.com/RIPE-NCC/hadoop-pcap

1 голос
/ 02 октября 2009

Напишите InputFormat, который читает файлы PCAP, возвращая что-то вроде LongWritable для ключа (n-й пакет в файле) и PacketWritable в качестве значения (содержащего данные PCAP). Для InputSplit вы можете использовать FileSplit или MultiFileSplit для лучшей производительности, так как отдельный файл PCAP может быть прочитан на удивление быстро.

Если размер вашего блока не превышает размер ваших файлов pcap, вы будете испытывать множество сетевых операций ввода-вывода ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...