Разбор текста с использованием PIG - PullRequest
1 голос
/ 28 января 2012

Я новичок в PIG, не знаю много об этом. Как я могу разобрать текст в PIG?для чтения значений поля в pig показано понятие позиционного параметра, например, $ 0 соответствует первому полю аналогично, есть ли такая функция, как позиционный параметр, который может читать всю строку. Что такое RADOOP, где именно он может использоваться?

Ответы [ 4 ]

1 голос
/ 31 января 2012

Ваш вопрос указывает на то, что вы хотели бы иметь какой-то интерактивный режим с вашими данными, но эти данные имеют большой объем.

RADOOP представляет собой комбинацию R и Hadoop, и он должен быть в состоянии предоставить вам графический интерфейс для выполнения ваших больших данных с помощью статистического анализа R с использованием обработки в масштабе Hadoop.

В то же время я предлагаю вам взглянуть на Google-Refine (http://code.google.com/p/google-refine/),, который вы можете легко загрузить и запустить процесс Data Evidence с ним.

С помощью Google-Refine вы можете легко анализировать ваши данные, используя встроенный текст, дату и числовые функции. Вы также можете использовать Jython для дальнейшего расширения необходимой функциональности. Он может обрабатывать данные в больших масштабах и исследовать его особенности с помощью встроенных граней. See example of Facets

R также является отличным инструментом для сбора данных, с хорошей выборкой и другими библиотеками статистического анализа. Но его интерфейс основан на командной строке и предназначен для продвинутых статистиков и аналитиков, а не для обычного пользователя.

0 голосов
/ 30 января 2012

Для разбора текста, прежде всего, вы можете прочитать из учебников PIG и пример WordCount.

Ссылки, приведенные ниже:

  1. Учебник для свиней

  2. Пример подсчета слов - Прочитайте пример подсчета слов по этой ссылке и свяжите команды, приведенные в руководстве.

0 голосов
/ 30 января 2012

Полагаю, вы просите не маркировать всю строку, просто взять всю строку как поле, верно?

Тогда, я думаю, вы можете использовать PigStorage ('\ n'), использовать '\ n' в качестве разделителя полей, чтобы обрабатывать всю строку как одно поле.

И я думаю, что твое "RADOOP" означает hadoop, верно? В качестве первого шага вы можете запустить pig в локальном режиме, что означает, что вам не нужно устанавливать hadoop.

0 голосов
/ 30 января 2012

Я не совсем уверен, что вы спрашиваете. Свинья имеет ряд функций, таких как TOKENIZE и UDF поиска и сопоставления регулярных выражений, которые могут быть полезны. Естественно, вы можете написать любой код обработки текста, который вам нравится на Java или Python, и вызывать его.

...