Как вы определяете индекс строки данного слова, используя методы MapReduce в MrJob? - PullRequest
0 голосов
/ 01 мая 2020

Я хотел бы создать инвертированный индекс с использованием методов MapReduce с MrJob. Инвертированный индекс для данного слова x определяется как индекс строки или индексы, где x встречается в данном входном текстовом файле. Например, скажем x - это слово this, а входной текстовый файл text.txt:

# copyright laws for your country before downloading or redistributing 
# this or any other Project Gutenberg eBook. BLANK LINE BELOW.

# This header should be the first thing seen when viewing this Project 
# Gutenberg file.  Please do not remove it.  

Тогда инвертированный индекс для this будет:

"this": 2, 4, 4

Так как this встречается в строке 2 и дважды в строке 4. Отмечая нечувствительность к регистру.

...