Как извлечь (распознать) название книги из статьи? - PullRequest
0 голосов
/ 15 мая 2018

Есть ли хороший способ извлечь (распознать) название книги из статьи, используя nltk или что-то еще?

Я могу распознавать имена авторов, используя nltk, поэтому моя идея состоит в том, чтобы получить список названий книг с авторами из какого-то внешнего источника, и когда я узнаю имя автора, я мог бы взять список книг этого автора из внешнего источника и искать их в тексте.

но я не убежден в этом решении, потому что мне нужен внешний источник со всеми книгами, и у меня нет такого источника, и это решение кажется мне немного "грубой силой".

Можете ли вы направить меня на темы, которые помогут мне с этой проблемой?

1 Ответ

0 голосов
/ 15 мая 2018

При наличии достаточных данных для обучения есть замечательная библиотека Python для достижения таких вещей, как https://github.com/snipsco/snips-nlu

Что вы можете сделать, это взять примеры из как можно большего количества статей, которые включают названия книг, следовать документации по этому хранилищу, и вы сможете найти названия книг из статей, предполагая, что они следуют шаблону, подобному вашему. пример данных.

Я не уверен на 100%, что это задача для машинного обучения. Может быть более простой способ, такой как поиск слов / фраз, которые заключены в кавычки, выделены курсивом и т. Д. Люди не обязательно знают, что группа слов является названием книги, поэтому мы придумали пунктуацию, чтобы явно сделать это Чисто. Мне кажется, что в вашем решении должен быть какой-то смысл использовать этот синтаксис, если это возможно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...