Как сравнить два больших текстовых файла в Python? - PullRequest
0 голосов
/ 01 октября 2019

Наборы данных : у меня есть два разных набора текстовых данных (большие текстовые файлы для обучения и тестирования, каждый из которых включает 30 000 предложений). часть данных похожа на следующее: «В пятницу большое жюри округа Фултон объявило, что расследование недавних первичных выборов в Атланте не дало« никаких доказательств », что какие-либо нарушения имели место».

Вопрос : Как я могу заменить каждое слово в тестовых данных, не замеченных в обучении, словом "unk" в Python?

Мое решение : Должен ли я использовать "вложенные циклы for"сравнить все слова данных поезда со всеми словами данных теста, а также оператором if, чтобы сказать, что если какое-либо слово в данных теста отсутствует в данных поезда, заменить на «unk»?

#open text file and assign it to varaible with the name "readfile"
readfile1= open('train.txt','r')
#create the new empty text file with the new name and then assign it to variable 
# with the name "writefile". now this file is ready for writing in that
writefile=open('test.txt','w')
for word1 in readfile1:
    for word2 in readfile2:
        if (word1!=word2):
            word2='unk'
writefile.close()

1 Ответ

0 голосов
/ 01 октября 2019

Пожалуйста, попробуйте следующее:

1) преобразовать ваш тренировочный набор в диктовку с работой в качестве ключа и считать в качестве значения. Например:

{"Hello":1,
"World":2}

2) Для каждого слова в наборе тестов попробуйте получить доступ к слову в dict, если его там нет, тогда замените на 'unk'.

def fun(testset):
    newtestset= testset
    for word in testset:
     try:
      Count = word_dict['Hello']
     except:
      newtestset.replace(word,'unk')
    return newtestset
...