«Соединенные Штаты» не [«Соединенные Штаты», «Штаты»] - PullRequest
0 голосов
/ 21 октября 2018

у меня есть текстовое поле вasticsearch, и я хочу визуализировать облако слов из него на кибане ...

первый шаг, нам нужно их токенизировать, я использовал "стандартный токенизатор" ... слово облаковизуализация с этой формой приводит к изображению, как показано ниже: you see untied states divided into united and states

, но мне нужны такие имена, как «Соединенные Штаты», «Организация Объединенных Наций», «Совет Безопасности» и…Я не должен отступать, и я хотел облако слов, подобное этому: enter image description here * собственные существительные или фразы могут быть между 2-5 словами почти.(например, "Китайская Народная Республика")

что мне делать?относится ли это к N-Gram?

пример текста:

Соединенные Штаты Америки являются уставным членом Организации Объединенных Наций и одним из пяти постоянныхчлены Совета Безопасности ООН.

В Соединенных Штатах Америки находится штаб-квартира Организации Объединенных Наций, которая включает в себя обычное место встречи Генеральной Ассамблеи в Нью-Йорке, резиденцию Совета Безопасности и несколько органов.Организации Объединенных Наций.Соединенные Штаты являются крупнейшим поставщиком финансовых взносов в Организацию Объединенных Наций, обеспечивая 22 процента всего бюджета ООН в 2017 году (для сравнения, следующим крупнейшим вкладчиком является Япония с почти 10 процентами, в то время как страны ЕС платят в общей сложности более 30 процентов).. 1 С июля 2016 года по июнь 2017 года Соединенные Штаты предоставили 28,6 процента бюджета, используемого для операций по поддержанию мира. 2 Соединенные Штаты сыграли ключевую роль в создании ООН.

1 Ответ

0 голосов
/ 21 октября 2018

Это задание NER , а не стандартное задание токенизации.Есть плагины, чтобы сделать это с упругой, но ни один не обещает.

Чтобы это работало, вам необходимо предварительно обработать ваши данные на стороне приложения.Используйте анализатор НЛП (Standford Core NLP, Spacy ...) и извлеките Именованные объекты.Создайте поле ключевого слова в своем отображении (например, называйте его объектами), где вы сохраняете объекты, извлеченные из каждого документа, в виде массива, а затем вы можете использовать это поле для создания своего облака слов.

Удачи.

...