Как разбить предложения, если для проблемы НЛП нет разделителя? - PullRequest
0 голосов
/ 21 апреля 2019

Я хочу применить анализ настроения к предложению, у которого нет разделителя.

Входной текст такой, как показано ниже:

"it 's   been   a   little   while   Kirk   tells   me it 's   actually   been   three   weeks   now   that I 've   been   using   this   device   right   here that   is   of   course   the   Galaxy   S   ten   I mean   I 've   just   been   living   with   this phone   this   has   been   my   phone   has   the   SIM card   in   it   I   took   photos I   lived   live   I   sent   tweets   whatsapp slack   email   whatever   other   app   this   was my   smart   phone   of   choice   for   the   last three   weeks   
I   have   some   feelings   about it   that   I   think   you   need   to   know   about there 's   some   things   I   like   there 's   some things   I   don 't   like   any   smartphone   out there   I   chose   to   use   the   standard   Galaxy S   10   not   the   S   10   plus   I   just   feel   like this   is   a   nice   form   factor   I   kind   of like   the   circular   cutout   as   opposed   to the   larger   one   I   mean   look   it 's   your choice   you   want   a   bigger   display   you   go for   the   plus   otherwise   they 're   basically the   same   first   things   first   what   are   you looking   at   what   greets   you   when   you unlock   this   phone   it 's   a   display   I   mean that 's   gonna   satisfy   anyone   in   a smartphone   universe   anyone   in   the segment   any   fan   that 's   out   there   you your   nephew   your   aunt   your   uncle   if   you want   maybe   the   best   display   in   the smartphone   game   then   you   go   with   this phone   
I   mean   that 's   pretty   standard stuff   you   already   knew   it   I   have   a   case on   this   phone   so   it   kind   of   diminishes the   edge   a   little   bit   after   all   samsung has   been   curving   these   edges   for   a   while now   some   people   love   it   some   people   less so   actually   I   really   like   this   case   I forget   the   name   of   it   got   enough   Amazon genuine   leather   yeehaw   ladies   and gentlemen   that 's   rawhide   will   he   do another   big   change   for   this   particular model   year   we   now   have   more   cameras   than ever   that 's   correct   that 's   three   lenses on   the   back   of   course   you 're   getting   a wider   angle   view   with   these   
I   used   it   I used   that   feature   I   love   that   feature   in fact   the   front-facing   camera   on   this device   is   wider   than   I   expected   as   well so   it 's   versatile   you   can   get   a   lot   of shots   of   course   the   camera   itself incredible   in   a   number   of   different circumstances   with   or   without   the   wide it 's   one   of   the   best   performers   out there   that   I 've   used   recently   I   want   to put   white   at   pixel   level   just the   software   the   the   isolation   the portrait   effect   and   so   on   not   that   I   use that   very   much   I   mean   for   me   this   camera it 's   an   easy   pick   kind   of   like   the display   again   not   much   of   a   surprise"

Я хочу разбить текст на множество предложений и проанализировать настроения каждого предложения.У меня есть готовая заранее подготовленная модель, которая проанализирует настроение предложений, которые разделены ".".

Есть ли способ разбить эти клубные предложения?

1 Ответ

1 голос
/ 22 апреля 2019

Предсказание знаков препинания для текста (в частности, для речевой транскрипции) является хорошо известной проблемой.

Вы можете попробовать использовать Punctuator2 , либо с предоставленными моделями, либо обучая новые модели тексту из вашего домена. Посмотрите на нижнюю часть README, чтобы найти ссылки на некоторые связанные проекты.

Грамматически разработан более простой подход для вставки только периодов между рабочими предложениями, описанный здесь:


Они провели несколько хороших экспериментов с реальными и искусственными данными обучения, что полезно, потому что легко генерировать данные обучения из текстов, которые, как вы знаете, имеют надежную пунктуацию на границах предложений, например, газетный текст.
