Python: Матрица совпадений с размером окна = 4 (Python / Pandas) - PullRequest
0 голосов
/ 01 мая 2020
""" Compute co-occurrence matrix for the given corpus and window_size (default of 4).

Примечание. Каждое слово в документе должно быть в центре окна. Слова, расположенные ближе к краям, будут иметь меньшее количество совпадающих слов.

Например, если мы возьмем документ «Все, что блестит, не золото» с размером окна 4, «Все» будет происходить вместе с "", "that", "glitters", "is" и "not".

Параметры: corpus (список списка строк): совокупность документов window_size (int): размер контекстного окна Возврат : M (матрица симметрии c numpy формы (количество уникальных слов в корпусе, количество уникальных слов в корпусе)): Матрица совпадений количества слов. Порядок слов в строках / столбцах должен быть таким же, как и порядок слов, заданных функцией Different_words. word2Ind (dict): словарь, который отображает слово в индекс (то есть номер строки / столбца) для матрицы M.

Функция different_words просто сводит список документов списка в один список, удаляет дубликаты и возвращает общее количество слова в списке "" "Начальный код указан здесь ниже

def compute_co_occurrence_matrix (корпус, window_size = 4):

words, num_words = distinct_words(corpus)
M = None
word2Ind = {}
# ------------------
 Write your implementation here.


# ------------------
return M, word2Ind
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...