Наборы данных : у меня есть два разных набора текстовых данных (большие текстовые файлы для обучения и тестирования, каждый из которых включает 30 000 предложений). часть данных похожа на следующее: «В пятницу большое жюри округа Фултон объявило, что расследование недавних первичных выборов в Атланте не дало« никаких доказательств », что какие-либо нарушения имели место».
Вопрос : Как я могу заменить каждое слово в тестовых данных, не замеченных в обучении, словом "unk" в Python?
Мое решение : Должен ли я использовать "вложенные циклы for"сравнить все слова данных поезда со всеми словами данных теста, а также оператором if, чтобы сказать, что если какое-либо слово в данных теста отсутствует в данных поезда, заменить на «unk»?
#open text file and assign it to varaible with the name "readfile"
readfile1= open('train.txt','r')
#create the new empty text file with the new name and then assign it to variable
# with the name "writefile". now this file is ready for writing in that
writefile=open('test.txt','w')
for word1 in readfile1:
for word2 in readfile2:
if (word1!=word2):
word2='unk'
writefile.close()