У меня проблема с моим кодом.У меня есть .txt файл с именем test.txt, который содержит предложения, и у меня есть датафрейм, который содержит все токенизированные слова в этих предложениях.Моя проблема в том, что я хочу специально найти и распечатать конкретный токен и сохранить его номер позиции.Я попробовал некоторые операторы if (), но кажется, что он перезаписывает счет индекса каждого слова.
def output ():
currCount = 0
for words in read():
add = len(words)
word_new = [' '.join(df.loc[t].values.tolist()) if t
in df.index is not None else t for t in word_tokenize(words)]
tag = ' '.join(word for word in word_new);
print('First:' + str(currCount) + '\n' + 'Last:' + str(currCount + add)
+ '\n' + 'Tag: ' + tag + '\n' + 'word: '+words + '\n')
currCount += add + 1
if words is ".":
currCount = 0
#Sample output #Output that i want
#First:0 #Assume that i only want
#Last:1 #PERSON tags
#Tag: PERSON
#word: I #First:0
#Last:1
#First:2 #Tag: PERSON
#Last:6 #word: I
#Tag: NOTHING
#word: like #First: 0
#Last: 3
#First:7 #Tag: Bob
#Last:12 #word: PERSON
#Tag: FOOD
#word: pizza
#First:13
#Last:14
#Tag: NOTHING
#word: .
#First:0
#Last:3
#Tag: Bob
#word: PERSON
#First:4
#Last:9
#Tag: NOTHING
#word: likes
#First:10
#Last:15
#Tag: FOOD
#word: pizza
#First:16
#Last:17
#Tag: NOTHING
#word: .
Пример предложения внутри моего файла test.txt:
I like pizza .
Bob likes pizza .
иобразец тега, который я сделал
I PERSON
Like NOTHING
Pizza FOOD
. NOTHING
Bob PERSON
likes NOTHING
pizza FOOD
. NOTHING
The output that i want:
Assume that i only want PERSON tags.
First:0
Last:1
Tag: PERSON
word: I
First: 0
Last: 3
Tag: Bob
word: PERSON