Токенизация на основе предложений и объединение строк для данных CV - PullRequest
0 голосов
/ 29 ноября 2018

Здравствуйте, я работаю над отправкой мудрого токенизации для различных линий, таких как: -

Высшая школа Государственной женской высшей средней школы в Тени, 2008–2013 годы, Государственная женская старшая средняя школа в Туни, 2007–2009 годы.Б.Тех из сингапетского коллажа института Канпур 2015 - 2018 гг. С 98,8%.Степень бакалавра из Технического университета Химанчала, Химанчал, 20017 - 2019 гг. С 79,5%.

Я закончил, бакалавр технологии, Университет Анны, август 2006 г. - май 2010 г. Химическая инженерия CGPA -7,5 / 10, мой подход

from collections import OrderedDict
wordsize = OrderedDict()
with open("/home/samle.txt") as lines:
    for line in lines:
        wordsize[line.replace('\n','')] = len(line.split(' '))
    #print(wordsize)
temp = ""
final = []
for k , v in wordsize.items():
    if(v>5):
        if temp =="":
            temp = k;
        else:
            temp = temp+k;
    else:
        temp = temp +k;
        final.append(temp)   
        temp = ""
print(final)
...