Как извлечь блок строк с наивысшим соответствием из нескольких блоков в Python, используя концепцию соответствия строк - PullRequest
0 голосов
/ 21 января 2020

У меня есть текстовый файл, который состоит из нескольких абзацев. Я хочу извлечь только тот абзац, который имеет наивысшую оценку. С моим текущим кодом я получаю эту строку, но проблема в том, что он также выбирает и другие абзацы. Я использую библиотеку Fuzzy-set для одного и того же.

несколько абзацев из моего текстового файла:

Box[8]: x=43, y=1271, w=444, h=154, confidence: 90, text: Yue for Publishers (YFP) is a new selt-
service platform that enables publishers
to manage yield and monetize through
other sales channels in addition to the
YVuMe network.
Box[9]: x=43, y=1474, w=463, h=160, confidence: 94, text: YuMe for Network (YFN) functions as an
ad serving network that targets
advertisers and publishers. Advertisers
pay for online campaigns to be run on the
oublisher's inventory.
Box[10]: x=43, y=1678, w=430, h=125, confidence: 94, text: Roles & Responsibilities for the above
Ul Development :

Различные абзацы разделены по разным значениям Box.

Вот код, который я использую:

from fuzzyset import FuzzySet

corpus = open(r"D:\WebDeveloper.txt", "r")
file_content = corpus.read()
corpus.close()

corpus = [line.lstrip() for line in file_content.split("\n\n")]
fs = FuzzySet(corpus)
print(file_content)

query = "Roles & Responsibilities for the above Ul Development"
fs.get(query)

Здесь запрос - это значение, с помощью которого я выполняю сопоставление строк. Я хочу, чтобы все результаты сравнения строк в блоке (блоке) были такими, чтобы я мог решить, какой из них дает наивысший балл, чтобы я мог его использовать.

...