Нокогири, вероятно, возвращает вещи правильно. Я подозреваю, что у вас есть несоответствие в наборе символов контента, который вы анализируете с Nokogiri, и в базе данных.
Ваши данные могут быть проанализированы ISO-8859-1 или WIN-1252, которые являются наиболее распространенными в Интернете. Вам нужно просмотреть данные, чтобы увидеть, как они объявлены. Также посмотрите на источник для слова "Aragón"
и посмотрите, имеет ли оно встроенные старшие символы или символы, закодированные в сущности. Посмотрев на значение для акцентированных символов, вы также можете получить представление о кодировке символов.
Шансы хорошие, они не UTF8, поэтому, когда Nokogiri передает их в ваш код, который записывает в базу данных, они ошибаются.
Чтобы решить эту проблему, вам нужно либо сообщить Nokogiri, что такое кодировка, либо преобразовать текст в UTF-8 перед его сохранением.