НЛП - лингвистический c анализ согласованности - PullRequest
0 голосов
/ 03 апреля 2020

Надеюсь, вы мне поможете:).

Я работаю в переводческой компании.

Как вы знаете, каждый перевод состоит в том, чтобы разбить оригинальный текст на небольшие сегменты и затем снова объединить их в конечный продукт.

Другими словами, сегменты рассматриваются как " единицы перевода".

Часто, особенно для больших документов, переводчики допускают некоторые ошибки c непротиворечивости, я пытаюсь объяснить это на примере.

В испанском sh, вы можете использовать «tu» или «usted», в зависимости от контекста, и это определяет тон формальности-неформальности предложения.

Итак, если вы рассмотрите эти два предложения документа:

Lara, te has lavado las manos? (TU)

Lara usted se lavò las manos? (USTED)

Они ОБА правильны, но если вы рассматриваете весь документ, есть несоответствие языковой c.

В свободное время я изучаю основы НЛП c и выясняю, как создать инструмент для анализа лингвистической c согласованности набора предложений.

В частности, я смотрю на Standford CoreNLP (я предпочитаю от Java до Python). Я думаю, что мне нужны некоторые инструменты linguisti c, чтобы в первую очередь выполнить анализ глаголов. И, естественно, инструмент сможет работать с разными языками (EN, IT, ES, FR, PT).

Кто-нибудь может помочь мне разобраться, как начать это?

Буду признателен за любую помощь,

Заранее спасибо!

1 Ответ

1 голос
/ 03 апреля 2020

Я не уверен насчет Stanford CoreNLP, но если вы рассматриваете эту опцию, вы можете создать свой собственный тэггер и использовать модификаторы в pos-тегах . Затем используйте это как функцию перевода.

Другими словами, вместо того, чтобы просто пометить слово как глагол, вы можете пометить его как "глагол в бесконечном втором лице".

Уже есть хорошие пре- помеченный корпус для испанского sh, который может помочь вам сделать именно это. Например, если вы посмотрите на Универсальные зависимости Ankora Corpus , вы обнаружите, что есть аннотации, относящиеся к личности глагола .

С небольшой настройкой вы могли бы создать композитный PoS, который использует "Verb-1st-Person" или что-то в этом роде и обучить Tagger .

I ' Мы написали статью о том, как это сделать в Python, но держу пари, что вы можете сделать это в Java, используя Weka. Вы можете прочитать статью здесь .

После этого, я предполагаю, что следующим шагом будет то, что вы обеспечите соответствие человека одного «переводчика» другому или сделаете что-то в конвейерная мода.

...