Я пытаюсь проанализировать файлы данных, разделенные табуляцией, сгенерированные нашими сервисами с помощью Amazon Elastic Map Reduce с помощью программы Pig.Все идет хорошо, за исключением того, что все наши файлы данных содержат строку заголовка, которая определяет назначение каждого столбца.Очевидно, что (строковые) заголовки не могут быть преобразованы в числовые значения данных, поэтому я получаю предупреждения от Pig, например:
2011-03-17 22:49:55,378 [main] WARN org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigHadoopLogger - org.apache.pig.builtin.PigStorage: Unable to interpret value [<snip>] in field being converted to double, caught NumberFormatException <For input string: "headerName"> field discarded
У меня есть фильтр после оператора load, который пытается обеспечитьчто позже я не оперирую ни с какими строками заголовков (отфильтровывая термины заголовков), но я бы хотел избавиться от предупреждающего шума, чтобы избежать маскировки любых потенциальных проблем (например, реальных полей данных, которые не обрабатываются должным образом).
Возможно ли это?