Question

Я пытаюсь написать редуктор картографирования для Hadoop, чтобы найти фильмы с 5-ю оценками «популярных фильмов» для каждой возрастной группы.

Я пишу это mapper.py, чтобы присоединиться к набору данных буксировки с пользователемИдентификатор для получения возраста из пользовательских данных и рейтинга с названием фильма из набора рейтинговых данных.

! / Usr / bin / env python:

import sys

for line in sys.stdin:
# remove leading and trailing whitespace
   line = line.strip()

    line = line.split("::")
    rating = "-1"
    movie = "-1"
    user = "-1"
    age = "-1"

    if len(line) == 4 :
      #ratings data
       rating = line[2]
    movie = line[1]
      user = line[0]
      #print '%s %s %s' % (user,movie,rating)
   else:
      # users data
        user = line[0]
        age = line[2]
    print '%s\t%s\t%s\t%s' % (user,age,rating,movie)

это данные рейтинга структуры данных: идентификатор пользователя, идентификатор фильма, рейтинг, метка времени Данные пользователя: идентификатор пользователя, пол, возраст, род занятий

Редуктор, который я написал, вообще не работает, он дал мне 0 результатов.

Я хочу, чтобы результат был самым популярным фильмом для каждой возрастной группы:

редуктор, чтобы найти самый популярный фильм для каждой возрастной группы в питоне

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

редуктор, чтобы найти самый популярный фильм для каждой возрастной группы в питоне

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы