Могу ли я использовать mapreduce с парой ключей и парой значений? - PullRequest
0 голосов
/ 22 мая 2019

Мой вопрос теоретический,

Я пытаюсь создать дизайн для примера mapreduce в области обработки больших данных.

В моем случае пара ключей должна быть сопоставлена ​​с парой значений.

например, если у нас есть текст ниже: «Инженер-бакалавр имеет опыт работы 5 лет» Я пытаюсь посчитать слова «Инженерия и опыт» так, чтобы у меня было значение для каждого слова в отдельности.

Таким образом, мой ключ будет (Инженерное дело, Опыт), а мое значение будет (1,1), как в приведенном выше текстовом примере.

Обратите внимание, что в моей домашней работе есть взаимосвязь между обоими значениями ключей, поэтому я хочу, чтобы они оба в одном наборе значений ключей определяли, упоминаются ли оба ключа в одном текстовом файле, или упоминается только один ключ, или ни один не упомянут.

Пожалуйста, дайте мне знать, если описанный выше случай можно сделать при уменьшении больших данных или нет.

Ответы [ 2 ]

1 голос
/ 24 мая 2019

Наличие строкового ключа "(Engineering,Experience)" ничем не отличается от простого наличия строки одного из этих слов.

Если вы хотите иметь какой-то другой пользовательский тип, то вы захотите создать подклассы Writable и, возможно, WritableComparable интерфейсов.

Одновременно, для значения вы можете поместить весь кортеж как Text и проанализировать его позже, или вы можете создать свой собственный подкласс Writable, который может хранить два целых числа.

0 голосов
/ 13 июня 2019

Спасибо за ответ, но я подумал, что могу использовать «Engineering Experience» в качестве строки для ключа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...