Question

Я только начал изучать, как работает НЛП.То, что я могу сделать прямо сейчас, это получить количество частот конкретного слова в документе.Но я пытаюсь сравнить четыре документа, которые мне нужно сравнить, их сходства и различия, а также отобразить слова, которые похожи, и слова, уникальные для каждого документа.

Мои документыв формате .csv, импортированном с использованием панд.Так как у каждого ряда есть свои чувства.

Eric McLachlan · Answer 1 · 20 мая 2019

Если честно, вопрос, который вы задаете, очень высокий уровень, и на таком форуме сложно (возможно, невозможно) ответить.Итак, вот некоторые идеи, которые могут быть полезны:

Вы можете попытаться использовать [термин частота-обратная частота документа (TFIDF)] (https://en.wikipedia.org/wiki/Tf%E2%80%93idf), чтобы сравнить словари на предмет сходства и различий.не большой шаг от вашего текущего анализа частотности слов.

Для более подробного анализа, возможно, было бы неплохо заменить слова ваших документов чем-то вроде synnet wordnet.позволяет сравнивать значения предложений на более высоком уровне абстракции, чем сами слова. Например, если в каждом из ваших документов упоминаются «самолеты», «поезда» и «автомобили», существует сходство (ссылки на транспортные средства)) что простое сравнение слов будет игнорировать и не сможет обнаружить.

Консолидация и сравнение текста в документе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Консолидация и сравнение текста в документе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы