Имеется ли программное обеспечение с открытым исходным кодом, которое анализирует строку и угадывает пол автора? - PullRequest
13 голосов
/ 28 декабря 2008

Я не могу найти ничего, кроме веб-приложений с закрытым исходным кодом. Есть ли активные проекты? Мне было бы интересно использовать программное обеспечение для того, что я разрабатываю и ввязываюсь.

Ответы [ 10 ]

2 голосов
/ 29 декабря 2008

Существует целый набор двухклассных анализаторов, которые можно адаптировать здесь ... ПО для блокировки и идентификации спама . Пользователю по-прежнему требуется, чтобы текст, написанный мужчиной (рассматриваемый как спам), и текст женского пола (рассматриваемый как ветчина или наоборот), но многие должны работать.

2 голосов
/ 28 декабря 2008

Вот еще один веб-сайт, который утверждает, что делает это: GenderAnalyzer . Однако он полагается на другой веб-сайт под названием uClassify.com, который не работает, когда я пишу это. У них есть контактная ссылка внизу для вопросов.

Звучит как академический наряд: «В нашей лаборатории все работает очень хорошо».

1 голос
/ 28 декабря 2008

Поскольку вы предполагаете две категории, почти любой классификатор, вероятно, будет работать нормально. Некоторые предложения:

  • Наивный Байес
  • опорные векторные машины

Как сказал более ранний комментатор, начиная с известного образца текста (а их должно быть много ... газетные корпуса могут быть хорошими), обучайте и классифицируйте по некоторым разумным признакам (например, наличие / отсутствие или слова или пары слов) ).

Это должно быть (сравнительно) легко.

Если вы используете python, даже такой простой инструмент, как Natural Language Toolkit (cf: nltk.org) и его книга, помогут вам в этом.

1 голос
/ 28 декабря 2008

Существуют такие приложения, как «Gender Genie», которые работают с разумной степенью успеха: http://bookblog.net/gender/genie.php (и особенно с более длинными текстами)

Это не должно быть полностью успешным. У меня было бы огромное количество данных для работы, и это в основном просто для удовольствия.

Если кто-нибудь что-нибудь знает, пожалуйста, поделитесь.

Richard

0 голосов
/ 22 февраля 2009

nlpers писал об этом в блоге несколько лет назад; см. комментарии там для некоторых предложений ...

0 голосов
/ 31 декабря 2008

вы можете попробовать гендерный классификатор для текстовых строк здесь: http://uclassify.com/browse/uClassify/gender_v3

0 голосов
/ 28 декабря 2008

Существует несколько реализаций с открытым исходным кодом скрытой семантической индексации / анализа. Если у вас есть хороший учебный комплект для письма мужчин и женщин, относящийся к вашему заявлению, он сможет достаточно точно классифицировать, чтобы быть полезным.

0 голосов
/ 28 декабря 2008

В книге Стивена Бейкера есть раздел об этом, Нумерация . Есть компании, посвященные компьютерному анализу блогосферы в маркетинговых целях, и часть их алгоритмов решает вопрос, является ли автор мужчиной или женщиной. Я предлагаю прочитать это.

Я не верю, что любая работа, подобная этой, имеет открытый исходный код, но вы можете создать сжатую версию самостоятельно. Однако, если не анализировать МНОГО данных для программирования, я не думаю, что это будет очень точно.

0 голосов
/ 28 декабря 2008

Эй, возможно, это можно сделать. Вам нужно будет взять кучу книг у авторов-мужчин и женщин, вытащить предложения, смешать их и передать их в какую-то нейронную сеть для обучения. Если честно, мне было бы интересно посмотреть, справится ли кто-нибудь с этим. О, и мне просто любопытно , почему нужна такая программа:)

0 голосов
/ 28 декабря 2008

Вы столкнетесь с проблемой: догадки будут только догадками. Нет даже отдаленно точного способа точно определить пол автора по его письму, самое большее, что вы получите, - это неправильная оценка.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...