Я хотел бы создать инвертированный индекс с использованием методов MapReduce с MrJob. Инвертированный индекс для данного слова x
определяется как индекс строки или индексы, где x
встречается в данном входном текстовом файле. Например, скажем x
- это слово this
, а входной текстовый файл text.txt
:
# copyright laws for your country before downloading or redistributing
# this or any other Project Gutenberg eBook. BLANK LINE BELOW.
# This header should be the first thing seen when viewing this Project
# Gutenberg file. Please do not remove it.
Тогда инвертированный индекс для this
будет:
"this": 2, 4, 4
Так как this
встречается в строке 2
и дважды в строке 4
. Отмечая нечувствительность к регистру.