Подсчет частоты слова в википедии - PullRequest
0 голосов
/ 15 октября 2019

Мне нужно извлечь информацию из википедии, но я понятия не имею, как поступить. Что я должен сделать, это следующее:

Учитывая слово «w», как я могу посчитать, сколько раз «w» появляется во всей английской Википедии? Есть ли список уже доступен онлайн? Если нет, как я мог сделать такую ​​вещь? Я новичок в кодировании и пытаюсь провести некоторые эксперименты в некоторых задачах, связанных с НЛП.

1 Ответ

0 голосов
/ 15 октября 2019

Сначала загрузите дамп википедии (например, в формате XML)
Если вы используете ОС на основе UNIX (например, LINUX или Mac OS X), вы можете использовать grep. см. здесь

Python также может использоваться для подсчета вхождений указанной строки в файле
см. здесь

...