Список "обычных" английских слов - PullRequest
0 голосов
/ 09 июня 2019

Итак, я нашел эти 3 ресурса:

Я не против, чтобы в списке из 479 тысяч слов были такие слова, как b и u (слова которыхЯ никогда не видел), потому что это включает в себя супер непонятные вещи.Но что я удивляюсь, так это то, что список часто встречающихся в Викисловарях включает в себя следующие слова:

b
be
bel
bl
bleu
bu
eu
l
lb
le
leu
lu
lub

Кроме того, в вики-списке нет этих слов!

lube
neg
tab

То есть, в вики-списке есть много слов, которые я бы не назвал "обычными словами", и есть много "обычных слов", которых в вики-списке нет.

Так что мой вопрос, есть ли список "обычных" слов для скачивания в Интернете в свободном доступе.Под обычным я подразумеваю слова, которые вы изучаете, читая книги и тому подобное, а не такие слова, как leu и bl, которые по какой-то причине находятся в списке избранных вики.

Это для компонента автозаполнения.

1 Ответ

0 голосов
/ 10 июня 2019

Похоже, вы уже знаете, что не существует рабочего определения для "обычного". Это потому, что вам нужно определить его самостоятельно, исходя из потребностей вашего проекта. Это смайлики? Если вы анализируете данные из твиттера, то, вероятно, полезно включить их.

Пара точек, которые помогут вам определить «обычный» для вашего проекта:

  • метрика частоты (появляется ли это слово как минимум в XX% случаев в вашем корпусе)
  • соглашение между источниками (слова, которые встречаются во всех трех ваших списках слов)
  • человеческое суждение (сделайте это сами или используйте mturk и спросите «это слово, да или нет?»)
...