Я пытаюсь использовать Difflib.SequenceMatcher для вычисления сходства между двумя файлами. Эти два файла практически идентичны, за исключением того, что один содержит несколько лишних пробелов, пустые строки, а другие нет. Я пытаюсь использовать
s=difflib.SequenceMatcher(isjunk,text1,text2)
ratio =s.ratio()
для этой цели.
Итак, вопрос в том, как написать лямбда-выражение для этого метода isjunk, чтобы метод SequenceMatcher игнорировал все пробелы, пустые строки и т. Д. Я попытался использовать параметр lambda x: x == "", но результат не так хорошо Для двух похожих текстов соотношение очень низкое. Это очень противоречит интуиции.
Для целей тестирования, вот две строки, которые вы можете использовать при тестировании:
Что мотивирует JWOVU делать вашу работу
Что ж? Хорошо, это запись пытается
выиграть 100 долларов на разработку программного обеспечения
книги, несмотря на то, что я не
читать
книги по программированию. Для того, чтобы выиграть
приз вы должны написать запись и
что мотивирует fggmum делать свою работу
Что ж. Отсюда и этот пост. Первый
мотивация
деньги. Я знаю, это не похоже на
большое вдохновение для многих, и
говоря, что деньги являются одним из
факторы мотивации могут просто взорвать мой
шансы далеко.
Как будто деньги - это табу в программировании
Мир. Я знаю, что есть люди, которые
не может быть мотивировано деньгами. Мадам, на
с другой стороны, я живу в реальном
мир,
с ипотекой дома, чтобы заплатить, я сам
корма и счета для покрытия. Так что я не могу
действительно исключить деньги из моего
рассмотрение. Если я могу получить большой
сумма денег за
делает хорошую работу, тогда определенно
повысить мой моральный дух Мне все равно,
Я использую старую рабочую станцию, или
вынуждены делить комнаты или кабину с
другое
человек, или должны мириться с
раздражающий босс или что-то еще. Факт
что в конце дня я буду ходить
с большой кучей денег
достаточно
для меня, чтобы преодолеть все препятствия,
мириться со всеми острыми чувствами и
больно эго, терпеть медленный компьютер
и даже терпеть
А вот еще одна строка
Что мотивирует вас делать свою работу
Что ж? Хорошо, это запись пытается
выиграть 100 долларов на разработку программного обеспечения
книги, несмотря на то, что я не
читать книги по программированию. Чтобы
выиграть приз, вы должны написать
запись и описывает, что мотивирует вас
хорошо делать свою работу Отсюда и этот пост.
Первая мотивация, деньги. Я знаю это
не звучит как большое вдохновение
и сказать, что деньги - это одно
из факторов мотивации может просто
упусти мои шансы. Как будто деньги
табу в мире программирования. я знаю
есть люди, которые не могут быть
мотивированы деньгами. Слава им. Мне,
с другой стороны, я живу в реальном
мир, с ипотекой, чтобы заплатить,
себя кормить и счета покрывать. Так
Я не могу исключить деньги из моего
рассмотрение.
Если я смогу получить большую сумму денег за
делать хорошую работу, то тогда
определенно повысить мой моральный дух. Я не буду
все равно, использую ли я старый
рабочая станция, или вынуждены делить комнаты
или кабина с другими людьми, или есть
мириться с раздражающим боссом, или
без разницы. Тот факт, что в конце
день, когда я уйду с большим
мне достаточно кучки денег
чтобы преодолеть все препятствия, мириться
со всеми обидами и обидами
эго, терпеть медленный компьютер и
даже терпеть
Я выполнил указанную выше команду и установил для isjunk значение lambda x: x == "", соотношение составляет всего 0,36.