Автоматизация поиска информации о компании в Google (слияния) с использованием NLP & ML - PullRequest
0 голосов
/ 27 июня 2018

Итак, я пытаюсь выяснить, была ли компания приобретена другой компанией или нет. Допустим, я ищу лабораторию Халли и хочу знать, была ли она приобретена или нет. Если да, то мне нужно знать название родительской компании. Мой подход заключается в поиске Google "Компания-учредитель Halli Labs". Затем я удалил весь текст на первой странице, все соответствующие ссылки, дату и т. Д. Затем я могу запустить тэг pos, сгенерировать биграммы, триграммы и т. Д. И передать его по какому-нибудь алгоритму, чтобы найти, является ли текст о приобретении, если да, тогда потяните Название компании.

Проблема теперь в том, что, названия компаний помечены как «ЛИЦО», есть ли способ, которым я могу решить эту проблему?

И мой подход достаточно хорош? Потому что, в основном, как человек узнает, была ли компания приобретена или нет?

nltk.ne_chunk(nltk.pos_tag(nltk.tokenize.word_tokenize("Google has acquired Halli Labs, a four-month old start-up out of Bengaluru that is developing artificial intelligence and machine learning")))

1 Ответ

0 голосов
/ 28 июня 2018

Вы всегда можете обучать свои собственные модели NER с вашим набором данных. Spacy может быть отличным инструментом для этого. Но модели прогнозирования NER, как правило, состоят из глубоких нейронных сетей, которые нуждаются в большом количестве обучающих данных, которые может быть трудно получить. Таким образом, вместо обучения модели с нуля, возможно, было бы лучше обновить существующую базовую модель NER данными обучения, в которых базовая модель дает сбой. Только при условии предоставления правильных аннотаций для этих ложноположительных примеров модель должна работать лучше. У Spacy есть API для этого, прочитайте это учебник .

Обратите внимание, что в строке 35 код должен быть отредактирован для загрузки базовой модели "en" вместо "пустой" модели. Также прочитайте раздел «Обучение дополнительному типу сущности» на той же странице.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...