@ AkshayNevrekar @fervent sent_tokenize по умолчанию использует PunktSentenceTokenizer, поэтому вы должны иметь те же результаты.https://www.nltk.org/api/nltk.tokenize.html
nltk.язык).
Может быть, у вас обоих есть разные версии NLTK?
Согласно https://www.nltk.org/api/nltk.tokenize.html#nltk.tokenize.punkt.PunktSentenceTokenizer
Этот токенизатор делит текст на списокпредложения с использованием неконтролируемого алгоритма для построения модели аббревиатуры слов, словосочетаний и слов, начинающих предложения.Прежде чем его можно будет использовать, его необходимо обучить большой коллекции открытого текста на целевом языке.
В пакет данных NLTK входит предварительно обученный токенайзер Punkt для английского языка.
ThisМодуль использует алгоритмы машинного обучения, чтобы вырезать ваш текст.Вы используете уже обученный токенизатор.Если вы недовольны результатами, вам нужно самостоятельно обучить этот токенизатор коллекции текстов, похожих на тот, который вы хотите разделить.Разделить текст на предложения - непростая задача, и вы, вероятно, не будете на 100% довольны такими алгоритмами.Вы должны принять некоторые ошибки, так как очень трудно предсказать его поведение.
Вы можете попытаться реализовать свой собственный алгоритм на основе правил, которые вы определяете сами.В качестве примера (не идеально, но у вас ожидаемое количество предложений):
import re
text = "Hello, How are you? Hope everything is good. I'm fine. 1.Hello World. 2.Good Morning John. Product is good but the managemnt is very lazy very bad. I dont like company service. They are giving fake promises. Next time i will not take any product. For Amazon service i will give 5 star dey give awsome service. But for sony company i will give 0 star... 1. Doesn't support all file formats when you connect USB 2. No other apps than YouTube and Netflix (requires subscription) 3. Screen mirroring is not up to the mark ( getting connected after once in 10 attempts 4. Good screen quality 5. Audio is very good 6. Bulky compared to other similar range 7. Price bit high due to brand value 8. its 1/4 smart TV. Not a full smart TV 9. Bad customer support 10. Remote control is very horrible to operate. it might be good for non smart TV 11. See the exchange value on amazon itself. LG gets 2ooo/- more than TV's 12. Also it was mentioned like 1+1 year warranty. But either support or Amazon support aren't clear about it. 13. Product information isn't up to 30% at least.There no installation. While I contact costumer Care."
print(list(re.findall('.*?[a-z].*?[0-9a-z][\?\.\!]+', text)))
С такими алгоритмами легче получить предсказуемые результаты.Но он плохо работает с неожиданными текстами, потому что очень трудно найти правила, которые будут работать с любым предложением.
Чтобы помочь вам выбрать решение:
Вы знаетевходные данные: попробуйте сделать свой собственный алгоритм, используя правила, и добавляйте правила, пока вы не будете удовлетворены результатом
У вас будут неожиданные входные данные: алгоритмы NLTK, вероятно, будут работать лучше, но вы не можетебудьте уверены, как это разделит ваш текст.