Клиентское разделение в Hadoop - PullRequest
0 голосов
/ 10 января 2012

У меня есть файл, в котором у меня есть записи типа 'курица' '10'. Я хочу разделить данные на основе «», а не «/ t», чтобы получить «курицу» в качестве ключа и «10» в качестве значения. Я думаю, что нам нужно изменить метод getPartition, но я не могу сделать это правильно. У кого-нибудь есть пример этого?

Спасибо за помощь.

1 Ответ

0 голосов
/ 10 января 2012

При потоковой передаче функция карты считывает строку из STDIO и обрабатывает ее до функции карты (пользовательский код). Вот пример кода для функции карты Python

import re
import sys
for line in sys.stdin:
    val = line.strip()
    (year, temp, q) = (val[15:19], val[87:92], val[92:93])
    if (temp != "+9999" and re.match("[01459]", q)):
        print "%s\t%s" % (year, temp)
...