Эвристический прогнозировать имя или компанию - PullRequest
1 голос
/ 21 января 2011

Проблема

Мы получаем строки, и они могут представлять либо название компании, либо имя человека.Нам нужна эвристика, чтобы определить это.

Первоначальные мысли

  • Используйте документ XML с узлом Commercial String / Commercial или Personal String / Personal и наберите строки соответствия +1(извините, не знаю, как форматировать XML в SO)

  • Не могу просто проверить правильность существительных.IE Bob's Company - это компания, в которой Боб Комптон - это имя

  • Необходимо вернуть уровень доверия в каком-либо формате.Я не могу думать о том, как сделать это в процентах, все, что я могу сделать, - это найти целое число, используя целое число

  • Возможный коммерческий (все будет преобразовано в более низкое)case): co, co., inc, inc., и т. д. (подробные версии каждого)

  • Я могу получить список английских имен из Интернета

Вопрос

Кто-нибудь сталкивался с подобной проблемой домена раньше?Какие методы вы использовали?Любой кричащий способ решения этой проблемы?

Спасибо.

Ответы [ 2 ]

1 голос
/ 14 февраля 2011

Можете ли вы сравнить с базой данных известных названий компаний?

например. в Великобритании: http://wck2.companieshouse.gov.uk

Конечно, это не поможет, если это действительно чье-то имя, но есть компания с таким же названием.

1 голос
/ 21 января 2011

Я не делал этого раньше, но некоторые другие мысли:

Проверьте на наличие неправильных существительных (например, "и", "the", "piping").На самом деле, если у вас есть словарь английского языка и список имен, любое слово, которое не является именем, может быть хорошим указателем на название компании.

Большая проблема заключается в том, что некоторые компании просто называют в честь человека(ы).«Fred Meyer», «JC Penney» и «Lockheed Martin» являются примерами компаний, которые выглядят как человеческие имена.Вероятно, нет действительно хорошего способа обойти это (вероятно, ничего легкого в любом случае).Если вы можете классифицировать имена и фамилии, двойная фамилия или фамилия может быть хорошей причиной для снижения достоверности.

Я бы согласился с вашей целочисленной идеей.Если вы не сможете провести очень широкое и очень тщательное тестирование, ваши проценты, вероятно, будут бессмысленными.Вероятно, я бы запустил все тесты (возвращая имя, компанию или неизвестно) и сравнил бы результаты, добавив целое число, основанное на согласованности результатов.

...