Вы пытаетесь обработать документ Word, как если бы он был простым текстовым файлом (*).
Однако документ Word - это двоичный файл с собственным форматом, который необходимо правильно интерпретировать для извлечения содержащейся в нем информации.
Существуют библиотеки, которые обрабатывают такие файлы, например, Apache POI .
Если вы просто хотите сделать это для экспериментов и обучения, то может быть проще придерживаться простых текстовых файлов (как, например, в Notepad).
(*), даже если нет такой вещи, как простой текст .