Например, предложение "The corporate balance sheets data are available on an annual basis"
, и мне нужно пометить "corporate balance sheets"
, который является подстрокой, найденной в данном предложении.
Итак, шаблон, который мне нужно найти:
"corporate balance sheets"
С учетом строки:
"The corporate balance sheets data are available on an annual basis".
Последовательность меток вывода, которую я хочу, будет:
[0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
Существует несколько предложений (более 2 ГБ),и кучу шаблонов, которые мне нужно найти.Я понятия не имею, как сделать это эффективно в Python.Может кто-нибудь дать мне хороший алгоритм?