Question

В нашей настройке hadoop, когда происходит сбой (или) datanode (или) hadoop не отвечает на datanode, задача сокращения не может считываться с отказавшего узла (исключение ниже).Я думал, что hadoop обрабатывает сбои узлов данных, и это главная цель создания hadoop.Кто-нибудь сталкивается с подобной проблемой с их кластерами?Если у вас есть решение, пожалуйста, дайте мне знать.

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.read(Unknown Source)
    at java.io.BufferedInputStream.fill(Unknown Source)
    at java.io.BufferedInputStream.read1(Unknown Source)
    at java.io.BufferedInputStream.read(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTP(Unknown Source)
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getInputStream(ReduceTask.java:1547)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.setupSecureConnection(ReduceTask.java:1483)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getMapOutput(ReduceTask.java:1391)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.copyOutput(ReduceTask.java:1302)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.run(ReduceTask.java:1234)

Arnon Rotem-Gal-Oz · Answer 1 · 29 ноября 2011

Если задача задания mapreduce не выполняется, Hadoop попытается повторить ее на другом узле. Вы можете взглянуть на jobtracker (: 50030 / jobtracker.jsp) и увидеть занесенные в черный список узлы (узлы, которые имеют проблемы с их поддержкой активности)или просверлите выполненное / выполненное задание и посмотрите количество убитых заданий / повторных попыток, а также мертвые узлы, удаленные узлы и т. д.

Tudor · Answer 2 · 03 декабря 2011

У меня была похожая проблема в кластере, где выполнение задач не выполнялось на некоторых узлах из-за проблем с нехваткой памяти. Они были определенно перезапущены на других узлах. Вычисление в конечном итоге не удалось, потому что оно было плохо спроектировано, из-за чего всем узлам не хватило памяти, и в итоге был достигнут порог отмены задания.

Действительно ли hadoop справляется с отказом датододы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Действительно ли hadoop справляется с отказом датододы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы