Проблема заключается в следующем:
У меня есть одно резюме, обычно от 20 до 50 слов, которое я хотел бы сравнить с другими относительно похожими резюме. Общая категория и географическое положение, к которому относится резюме, уже известны.
Например, если люди из того же района пишут о строительстве дома, я хотел бы иметь возможность перечислить эти резюме с некоторой степенью уверенности, что они на самом деле относятся к строительству домов вместо строительства гаража или заднего двора. бассейн.
В настоящее время набор данных составляет около 50 000 документов с темпом роста около 200 документов в день.
Предпочтительными языками могут быть Python, PHP, C / C ++, Haskell или Erlang, в зависимости от того, что может быть выполнено. Также, если вы не возражаете, я бы хотел понять причины выбора определенного языка.