Question

У меня есть потоковая программа hadoop, в которой reader.readline () имеет исключение OutOfMemoryException, если переданная строка слишком велика (более 20M или около того).Есть ли способ сказать Hadoop, чтобы не передавать в записи, которые превышают определенный размер?Слишком большие записи - 1 на миллион.Я бы предпочел не использовать опцию пропуска плохих записей ...

Я также пытался использовать этот код http://code.google.com/p/owasp-esapi-java/issues/attachmentText?id=183&aid=-7134623167843514645&name=BoundedBufferedReader.java вместо reader.readline (), но он слишком медленный, я думаю, потому чтоон читает только один символ за раз.

Donald Miner · Answer 1 · 03 июля 2011

Это не проблема с Hadoop, это проблема с тем, как вы читаете строку.

reader.readline(), вероятно, читает по одному символу за раз, потому что ему нужно выяснить, где находится конец строки. Поэтому проверка символ за символом, вероятно, не будет намного медленнее. Вы можете читать по одному символу за раз, вставлять его обратно в какой-то список или буфер. Если это становится слишком длинным, игнорируйте линию и продолжайте. Как только вы видите символ новой строки, вы можете идти.

Hadoop Streaming пропускает очень большие записи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Hadoop Streaming пропускает очень большие записи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы