Хорошо, так что я работал над токенизацией всего LOTR, Братства Кольца, И я думаю, что это работало довольно хорошо, Но когда я попытался напечатать некоторые слова своим сценарием и использовал AntConc, чтобы проверить,Я был прав, есть пробел, например, используя мой токенизированный текст, он говорит, что Фродо написан 1033 раза, в то время как AntConc говорит 1101 раз.
Я просмотрел свой код, чтобы посмотреть, смогу ли я разбитьФродо где-то, но я не могу найти ни одного, Исходный текст используется так же, И если бы Фродо уже был где-то отрезан в исходном тексте, AntConc также не увидел бы это как одно слово, я полагаю, что я тоже думал оregex, Может быть, в этом была причина, но я не могу понять, как, поскольку во Фродо нет "t, s, l или m".
rawData = open("full_LOTR_1.txt").read()
cleaning1 = rawData.replace("\x92", "")
cleaning2 = cleaning1.replace("\n", "")
cleaning3 = cleaning2.replace("\\", "")
cleaning4 = reg.sub(r"""["?,$!;.]|['’](?!(?<! ')[tslm])""", " ", cleaning3)
cleaning5 = cleaning4.replace(" 128d ", "")
cleaning6 = cleaning5.lower()
cleaning7 = cleaning6.replace("o/","")
cleaning8 = " ".join(cleaning7.split())
cleaning9 = cleaning8.split()
scounter = 0
for char in cleaning9:
if (char == "sauron"):
scounter = scounter + 1
print("Sauron is written " + str(scounter) + " times in 'The Fellowship of the Ring'")
fcounter = 0
for char in cleaning9:
if (char == "frodo"):
fcounter = fcounter + 1
print("Frodo is written " + str(fcounter) + " times in 'The Fellowship of the Ring'")
Это код, итекст может быть найден на archive.org для справки, если это необходимо.Я в растерянности ...
PS: AntConc - это бесплатное программное обеспечение, и его действительно легко понять, поэтому, если вы еще об этом не знаете, его проверка не займет много времени..