Вы можете установить -D mapreduce.output.textoutputformat.separator=$'\r'
. Но это добавит \r
к каждой строке, даже если ее не было на входе.
В задании MapReduce ожидается, что в качестве выходных данных сопоставителя будет использоваться пара, а разделитель, используемый для разделения ключа и значения в выходных данных, устанавливается с помощью (mapreduce.output.textoutputformat.separator` (по умолчанию используется символ табуляции).
Кстати, файлы WARC не являются текстовыми файлами - существует двоичная полезная нагрузка (PDF-файлы, изображения), а в HTML нет фиксированной кодировки содержимого. Вы можете использовать библиотеку WARC (например, warcio ) или просто использовать cc-mrjob или cc-pyspark для выполнения обработки.