При каком размере данных вы должны рассмотреть использование map-Reduce? - PullRequest
0 голосов
/ 23 марта 2020

Я читал об уменьшении карты. Я понимаю концепцию. Но не могу не задаться вопросом о том, какие размеры данных становится уместным использовать?

Я понимаю, что в реальном мире это часто обусловлено необходимостью уже осознавать: у нас есть система, которая не работает как быстро, как нам хотелось бы, и после попытки нескольких стратегий map-Reduction становится необходимостью.

В основе того, что я пытаюсь понять, это: когда мне предлагают запрос на создание системы Каков соответствующий размер данных, когда map-Reduce становится разумным решением?

Я могу сказать, что если у вас есть столбцы 10 дБ, например, со смешанными строками и целыми числами, и вас просят построить систему, скажем, с 1 миллиардом строк, вам, возможно, понадобится уменьшить карту (если вы намерены быстро найти данные). Если данные были 200k строк, то вам, вероятно, не нужно уменьшать карту. Где линия? 10 миллионов? 100 миллионов? 500 миллионов?

Я понимаю, что большая часть ответа зависит также от фактического размера данных, индексации на месте, типа выполняемых поисков по сравнению с этими данными и роста данных с течением времени. Вы можете ответить любым определением для столбца / схемы, которое считаете подходящим.

Я пытался найти ответы, но чувствую, что не знаю, как сформулировать вопрос так, чтобы было легко Ответственный в поисковой системе. Я не уверен, где искать такую ​​информацию.

Помимо того, что вы испытываете желание отвечать на подобные вопросы, испытывая проблемы в своей карьере, на какую литературу вы бы порекомендовали взглянуть, чтобы получить asp эту топику c?

...