Я недавно начал изучать инфраструктуру MapReduce / Hadoop, и мне интересно, действительно ли моя проблема поддается инфраструктуре.
Учтите это. Рассмотрим пример, в котором у меня есть большой набор входных текстовых файлов и, кроме того, в качестве входных данных я хочу взять большой набор ключевых слов (скажем, содержащихся в одном файле). Для каждого ключевого слова я хотел бы искать в каждом текстовом файле и сообщать количество экземпляров этого ключевого слова в этом файле. текст Я бы повторил это для каждого ключевого слова, для каждого текстового файла.
Этот сценарий немного отличается от примеров, которые я видел в сети, тем, что я хотел бы использовать в качестве входных данных не только текстовые документы для поиска, но и ключевые слова для их поиска. Это означает, что каждая задача карты может обрабатываться в одном и том же входном текстовом файле несколько раз (один раз для ключевого слова).
Может ли подобная проблема быть подходящей для фреймворка MapReduce?