Как сделать так, чтобы семантический фрагмент в тексте отсутствовал? - PullRequest
0 голосов
/ 17 апреля 2019

Этот вопрос похож на вопрос Как найти, что один текст похож на часть другого? Есть текст о молодежи Барака Обамы.Существует список семантических фрагментов (примеров), вам необходимо найти их в тексте или убедиться, что их там нет.куски = [«Барак Обама родился на Гавайях», «Отец был из африканской страны», «Мать Энн Дарем родилась из Канзаса», «Мать Обамы вышла замуж за мужчину из Индонезии, и они переехали туда», «Обама вернулся на Гавайи иучился в школе Punahou »,« Обама поступил в Оксидентал-колледж в Лос-Анджелесе »,« Он перешел в Колумбийский университет в Нью-Йорке, где получил степень по политологии »,« Он работал в Чикаго для организации социальных служб »,«Обама был принят в Гарвардскую юридическую школу и был избран президентом журнала Harvard Law Review», «Он работал в Чикаго в небольшой фирме, специализирующейся на гражданском праве», «Обама начинает встречаться с Мишель Робинсон, и они вступают в брак»].
Я последовал совету годжомо: текст был разбит на куски, равные по размеру.Для каждой из семантических частей, которые будут обнаружены, расстояние Word Mover's Distance было вычислено между ним и каждым фрагментом текста.Считалось, что кусок текста, наименее удаленный из образца, по смыслу совпадает с ним.Все образцы, кроме одного, были правильно найдены в тексте (+).Возник вопрос, предположим, что в тексте нет фрагмента, смысл содержания которого совпадает со смыслом образца.Следуя процедуре, описанной выше, мы найдем фрагмент текста, назовем его X, наименее удаленный из образца, но как мы можем убедиться, что они имеют разные значения?Чтобы решить эту проблему, было сделано следующее: для каждого фрагмента текста мы добавили к нему образец, рассчитали расстояние от полученного фрагмента текста до образца, сравнили максимальное и минимальное значения с расстоянием от X дообразец.При сравнении не обнаружено закономерностей.Я благодарю всех, кто может помочь с отрицанием наличия образца значения в тексте.

...