Недавно я делал проект, который был основан на данных Avro, и раньше я не использовал этот формат данных, мне пришлось начинать с нуля. Вы правы в том, что при работе с Avro довольно сложно получить значительную помощь из онлайн-источников. Материал, который я бы порекомендовал вам:
- На сегодняшний день самым полезным источником, который я нашел, был раздел Avro (p103-p116) в книге Тома Уайта: Руководство по определению , а также его страница Github для код, который он использует в книге.
- Для дополнительных примеров кода я посмотрел страницу Gonub Рона Бодкина avro-mr-sample .
- В моем случае я использовал Python для чтения и записи файлов Avro, и для этого я использовал учебник .
- Несмотря на то, что это очевидно, я добавлю ссылку в список рассылки Avro Users . Там можно найти массу информации, и после того, как я прочитал вышеупомянутый материал и реализовал кучу кода, я обнаружил, что трачу часы на просмотр архивов.
Наконец, мое последнее предложение - использовать Avro 1.4.1 с Hadoop 0.20.2 и ТОЛЬКО эту комбинацию. У меня были серьезные проблемы с запуском моего кода с использованием Hadoop 0.21 и более поздних версий Avro.