Извлечение сложных английских слов из текста для построения словарного запаса с использованием Python или Javascript - PullRequest
0 голосов
/ 15 февраля 2019

Я хочу вывести сложные слова из английского текста онлайн, например, из Гутенберга, для построения словарного запаса с использованием python или javascript.Я получаю не простые слова, а уникальный словарный запас, такой как regal, apocryphal .. и т. Д.

Как обеспечить, чтобы при разбиении текста я получал уникальный словарный запас, а не простые слова.

Ответы [ 3 ]

0 голосов
/ 15 февраля 2019

Вы также можете использовать pop () , чтобы удалить из словаря английского языка список самых сложных слов.

0 голосов
/ 15 февраля 2019

Я определил «необычное слово» как слово, которое не встречается в первых 10000 наиболее распространенных английских слов.

10 тыс. Наиболее распространенных слов - это произвольная граница, но, как указано в the github repo :

Согласно анализу Oxford English Corpus, 7 000 наиболее распространенных английских лемм составляют примерно 90% использования, поэтому учебный корпус из 10000 слов - это больше, чемдостаточно для практических занятий.

import requests

english_most_common_10k = 'https://raw.githubusercontent.com/first20hours/google-10000-english/master/google-10000-english-usa-no-swears.txt'

# Get the file of 10 k most common words from TXT file in a github repo
response = requests.get(english_most_common_10k)
data = response.text

set_of_common_words = {x for x in data.split('\n')}

# Once we have the set of common words, we can just check.
# The check is in average case O(1) operation,
# but you can use for example some sort of search three with O(log(n)) complexity
while True:
    word = input()
    if word in set_of_common_words:
        print(f'The word "{word}" is common')
    else:
        print(f'The word "{word}" is difficult')
0 голосов
/ 15 февраля 2019

Как подсказал @Hoog, вот псевдокод:

simple_words = [...]
difficult_words = [word for word in english_vocabulary if word not in simple_words]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...