Я попробовал процесс (маркировка слов в предложении) больших данных (около 150 ГБ), используя tez, но проблема в том, что это заняло так много времени (1 неделя или более), а затем
Я пытался указать номер картографа.
Хотя я установил mapred.map.tasks = 2000,
но я не могу остановить установщик около 150,
поэтому я не могу делать то, что хочу.
Я указываю значение карты в файле рабочего процесса oozie и использую тез.
Как мне указать номер картографа?
Наконец, я хочу ускорить процесс, это нормально, чтобы не использовать тез.
Кроме того, я бы хотел посчитать помеченное предложение по редуктору, это тоже занимает много времени.
И я также хочу знать, как настроить размер памяти для использования каждого процесса отображения и редуктора.