Итак, я пытаюсь выяснить, была ли компания приобретена другой компанией или нет. Допустим, я ищу лабораторию Халли и хочу знать, была ли она приобретена или нет. Если да, то мне нужно знать название родительской компании. Мой подход заключается в поиске Google "Компания-учредитель Halli Labs". Затем я удалил весь текст на первой странице, все соответствующие ссылки, дату и т. Д. Затем я могу запустить тэг pos, сгенерировать биграммы, триграммы и т. Д. И передать его по какому-нибудь алгоритму, чтобы найти, является ли текст о приобретении, если да, тогда потяните Название компании.
Проблема теперь в том, что, названия компаний помечены как «ЛИЦО», есть ли способ, которым я могу решить эту проблему?
И мой подход достаточно хорош? Потому что, в основном, как человек узнает, была ли компания приобретена или нет?
nltk.ne_chunk(nltk.pos_tag(nltk.tokenize.word_tokenize("Google has acquired Halli Labs, a four-month old start-up out of Bengaluru that is developing artificial intelligence and machine learning")))