Я читаю данные из файла, который, к сожалению, имеет два типа кодировки символов.
Есть заголовок и тело. Заголовок всегда находится в ASCII и определяет набор символов, в котором кодируется тело.
Заголовок не имеет фиксированной длины и должен быть пропущен через анализатор, чтобы определить его содержимое / длину.
Файл также может быть довольно большим, поэтому мне нужно избегать помещения всего содержимого в память.
Итак, я начал с одного InputStream. Сначала я обертываю его с помощью InputStreamReader с ASCII, декодирую заголовок и извлекаю набор символов для тела. Все хорошо.
Затем я создаю новый InputStreamReader с правильным набором символов, перетаскиваю его поверх того же InputStream и начинаю пытаться прочитать тело.
К сожалению, похоже, Javadoc подтверждает это, что InputStreamReader может предпочесть чтение для целей эффективности. Таким образом, чтение заголовка жует некоторые / все тело.
У кого-нибудь есть предложения по работе над этой проблемой? Будет ли создание CharsetDecoder вручную и подача по одному байту за раз, но хорошая идея (возможно, обернутая в пользовательскую реализацию Reader?)
Заранее спасибо.
РЕДАКТИРОВАТЬ: мое окончательное решение было написать InputStreamReader, который не имеет буферизации, чтобы гарантировать, что я могу анализировать заголовок, не жуя часть тела. Хотя это не очень эффективно, я обертываю необработанный InputStream с BufferedInputStream, чтобы это не было проблемой.
// An InputStreamReader that only consumes as many bytes as is necessary
// It does not do any read-ahead.
public class InputStreamReaderUnbuffered extends Reader
{
private final CharsetDecoder charsetDecoder;
private final InputStream inputStream;
private final ByteBuffer byteBuffer = ByteBuffer.allocate( 1 );
public InputStreamReaderUnbuffered( InputStream inputStream, Charset charset )
{
this.inputStream = inputStream;
charsetDecoder = charset.newDecoder();
}
@Override
public int read() throws IOException
{
boolean middleOfReading = false;
while ( true )
{
int b = inputStream.read();
if ( b == -1 )
{
if ( middleOfReading )
throw new IOException( "Unexpected end of stream, byte truncated" );
return -1;
}
byteBuffer.clear();
byteBuffer.put( (byte)b );
byteBuffer.flip();
CharBuffer charBuffer = charsetDecoder.decode( byteBuffer );
// although this is theoretically possible this would violate the unbuffered nature
// of this class so we throw an exception
if ( charBuffer.length() > 1 )
throw new IOException( "Decoded multiple characters from one byte!" );
if ( charBuffer.length() == 1 )
return charBuffer.get();
middleOfReading = true;
}
}
public int read( char[] cbuf, int off, int len ) throws IOException
{
for ( int i = 0; i < len; i++ )
{
int ch = read();
if ( ch == -1 )
return i == 0 ? -1 : i;
cbuf[ i ] = (char)ch;
}
return len;
}
public void close() throws IOException
{
inputStream.close();
}
}