У меня есть список строковых представлений предложений, который выглядит примерно так:
original_format = ["This is a question", "This is another question", "And one more too"]
Я хочу преобразовать этот список в набор уникальных слов в моем корпусе. Учитывая приведенный выше список, результат будет выглядеть примерно так:
{'And', 'This', 'a', 'another', 'is', 'more', 'one', 'question', 'too'}
Я нашел способ сделать это, но на его запуск уходит очень много времени. Меня интересует более эффективный способ преобразования из одного формата в другой (тем более что мой фактический набор данных содержит> 200 тыс. Предложений).
К вашему сведению, я сейчас создаю пустой набор для вокаба, а затем перебираю каждое предложение (разделенное пробелами) и объединяюсь с набором вокаба. Используя переменную original_format , как определено выше, это выглядит так:
vocab = set()
for q in original_format:
vocab = vocab.union(set(q.split(' ')))
Можете ли вы помочь мне выполнить это преобразование более эффективно?