попробуйте отсканировать только те, которые вам нужны, например,
return File.read(file).scan(/\w+_[A-Z]+/)
, что даст вам что-то вроде:
["This_ART", "is_P", "an_ART", "example_N", "Thus_KONJ", ...]
, если вы хотите удалить часть аннотации, вы можете добавить:
.map{ |w| w.gsub(/_[A-Z]+\z/, '') }
обратите внимание, что \ w - это слова, а \ W - это не слова