Чтобы читать символы по отдельности из файла как «токены», используйте Reader
:
try (BufferedReader in = Files.newBufferedReader(Paths.get("test.txt"))) {
for (int charOrEOF; (charOrEOF = in.read()) != -1; ) {
String token = String.valueOf((char) charOrEOF);
// Use token here
}
}
Для полной поддержки символов Юникода из дополнительных плоскостей, например смайликов, нам нужно прочитать суррогатные пары :
try (BufferedReader in = Files.newBufferedReader(Paths.get("test.txt"))) {
for (int char1, char2; (char1 = in.read()) != -1; ) {
String token = (Character.isHighSurrogate((char) char1) && (char2 = in.read()) != -1)
? String.valueOf(new char[] { (char) char1, (char) char2 })
: String.valueOf((char) char1));
// Use token here
}
}