у меня есть текстовое поле вasticsearch, и я хочу визуализировать облако слов из него на кибане ...
первый шаг, нам нужно их токенизировать, я использовал "стандартный токенизатор" ... слово облаковизуализация с этой формой приводит к изображению, как показано ниже:
, но мне нужны такие имена, как «Соединенные Штаты», «Организация Объединенных Наций», «Совет Безопасности» и…Я не должен отступать, и я хотел облако слов, подобное этому:
* собственные существительные или фразы могут быть между 2-5 словами почти.(например, "Китайская Народная Республика")
что мне делать?относится ли это к N-Gram?
пример текста:
Соединенные Штаты Америки являются уставным членом Организации Объединенных Наций и одним из пяти постоянныхчлены Совета Безопасности ООН.
В Соединенных Штатах Америки находится штаб-квартира Организации Объединенных Наций, которая включает в себя обычное место встречи Генеральной Ассамблеи в Нью-Йорке, резиденцию Совета Безопасности и несколько органов.Организации Объединенных Наций.Соединенные Штаты являются крупнейшим поставщиком финансовых взносов в Организацию Объединенных Наций, обеспечивая 22 процента всего бюджета ООН в 2017 году (для сравнения, следующим крупнейшим вкладчиком является Япония с почти 10 процентами, в то время как страны ЕС платят в общей сложности более 30 процентов).. 1 С июля 2016 года по июнь 2017 года Соединенные Штаты предоставили 28,6 процента бюджета, используемого для операций по поддержанию мира. 2 Соединенные Штаты сыграли ключевую роль в создании ООН.