Действительно ли hadoop справляется с отказом датододы? - PullRequest
3 голосов
/ 29 ноября 2011

В нашей настройке hadoop, когда происходит сбой (или) datanode (или) hadoop не отвечает на datanode, задача сокращения не может считываться с отказавшего узла (исключение ниже).Я думал, что hadoop обрабатывает сбои узлов данных, и это главная цель создания hadoop.Кто-нибудь сталкивается с подобной проблемой с их кластерами?Если у вас есть решение, пожалуйста, дайте мне знать.

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.read(Unknown Source)
    at java.io.BufferedInputStream.fill(Unknown Source)
    at java.io.BufferedInputStream.read1(Unknown Source)
    at java.io.BufferedInputStream.read(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTP(Unknown Source)
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getInputStream(ReduceTask.java:1547)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.setupSecureConnection(ReduceTask.java:1483)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getMapOutput(ReduceTask.java:1391)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.copyOutput(ReduceTask.java:1302)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.run(ReduceTask.java:1234)

Ответы [ 2 ]

2 голосов
/ 29 ноября 2011

Если задача задания mapreduce не выполняется, Hadoop попытается повторить ее на другом узле. Вы можете взглянуть на jobtracker (: 50030 / jobtracker.jsp) и увидеть занесенные в черный список узлы (узлы, которые имеют проблемы с их поддержкой активности)или просверлите выполненное / выполненное задание и посмотрите количество убитых заданий / повторных попыток, а также мертвые узлы, удаленные узлы и т. д.

1 голос
/ 03 декабря 2011

У меня была похожая проблема в кластере, где выполнение задач не выполнялось на некоторых узлах из-за проблем с нехваткой памяти. Они были определенно перезапущены на других узлах. Вычисление в конечном итоге не удалось, потому что оно было плохо спроектировано, из-за чего всем узлам не хватило памяти, и в итоге был достигнут порог отмены задания.

...