Как вы берете абзац или большой объем текста и разбиваете его на предложения (желательно с использованием Ruby) с учетом таких случаев, как Mr. and Dr. и U.S.A? (Предполагая, что вы просто помещаете предложения в массив массивов)
UPDATE:
Одно возможное решение, о котором я подумал, заключается в использовании тега частей речи (POST) и классификатора для определения конца предложения:
Получив данные от мистера Джонса, он почувствовал теплое солнце на его лице, когда он вышел на балкон своего летнего дома в Италии. Он был счастлив быть живым.
КЛАССИФИКАТОРЫ
Г-н / ЧЕЛОВЕК Джонс / ЧЕЛОВЕК чувствовал / O / O тепло / O солнце / O on / O его / O лицо / O как / O он / O вышел / O / O на / O / O балкон / O из / O его / O лето / O дома / O в / O Италия / LOCATION ./O Он / O был / O счастлив / O to / O быть / O жив / O ./O
POST
Г-н / NNP Джонс / NNP чувствовал / VBD / DT тепло / JJ солнце / NN / IN / его PRP $ лицо / NN как / IN он / PRP вышел / VBD / RP на / IN / балкон DT / NN / IN его / PRP $ лето / NN home / NN in / IN Италия ./NNP Он / PRP был / VBD счастлив / JJ to / TO be / VB жив. / IN
Можем ли мы предположить, что, поскольку Италия является местом, период является действительным концом предложения? С окончанием на "мистер" не было бы других частей речи, можем ли мы предположить, что это недопустимый период окончания предложения? Это лучший ответ на мой вопрос?
Мысли