Определить сложность английского слова - PullRequest
21 голосов
/ 28 февраля 2011

Я работаю над игрой на основе слов.Моя база данных слов содержит около 10000 английских слов (отсортированных по алфавиту).Я планирую иметь 5 уровней сложности в игре.Уровень 1 показывает самые простые слова, а уровень 5 показывает самые сложные слова, условно говоря.

Мне нужно разделить список из 10000 длинных слов на 5 уровней, начиная от самых простых слов до сложных.Я ищу программу, которая сделает это для меня.

Может кто-нибудь сказать мне, если есть алгоритм или метод для количественного измерения сложности английского слова?

У меня есть некоторые мысли, вращающиеся вокруг использования « длина слова » и « частота слова » в качестве факторов, и придумаю формулу или что-то, что достигает этого.

Ответы [ 12 ]

11 голосов
/ 28 февраля 2011

Получите большой объем текстов (например, из архива Гутенберга), проведите прямой анализ частоты и оцените результаты.Если они не выглядят удовлетворительно, оцените каждый текст с его Flesch-Kincaid счетом и повторите анализ - слова, которые часто появляются, но в «трудных» текстах получат повышение оценки, чтовы хотите.

Если все, что у вас есть, это 10000 слов, тем не менее, вероятно, будет быстрее просто выполнить сортировку по частоте в качестве первого прохода, а затем настроить результаты вручную.

3 голосов
/ 26 апреля 2013

Я не понимаю, как часто используется частота ... если бы вы сканировали газету, я уверен, что вы бы увидели слово "тщательно", упомянутое гораздо чаще, чем слово "боп" или "му"но это не значит, что это более легкое слово;напротив, «тщательно» - это одна из самых отвратительно абсурдных орфографических аномалий, которая заставляет детей младшего школьного возраста испытывать кошмары ...

Попробуйте объяснить здравомыслящему человеку, изучающему английский как второй язык, тонкую разницу между убийством и смехом.

3 голосов
/ 04 марта 2012

Я согласен, что частота использования является наиболее вероятным показателем;существуют исследования, подтверждающие высокую корреляцию между частотой слов и сложностью (правильные ответы на тесты и т. д.).Посетите проект «Английский лексикон» по номеру http://elexicon.wustl.edu/, где можно найти слова с частотой в 70 тыс. (?)

1 голос
/ 03 ноября 2015

Существует несколько факторов, связанных со сложностью слова, в том числе возраст при получении, образность, конкретность, абстрактность, слоги, частота (устная и письменная речь)Существуют также психолингвистические базы данных, которые будут искать слова, по крайней мере, по некоторым из этих факторов.(просто выполните поиск по «психолингвистической базе данных».

1 голос
/ 24 июня 2015

толпа-источник ответа.

  • Создайте онлайн-игру, в которой случайно будут перечислены 10 слов.
  • Заставьте игрока перетащить их в самое простое - самое сложное, и отметьте, чтобы указать, слышал ли игрок когда-либо слово.
  • Применение алгоритма ранжирования (например, ELO) к результату каждого эксперимента.
  • Повтор.

Играть может быть даже забавно, в конце вы можете получить оценку владения языком.

1 голос
/ 28 февраля 2011

в зависимости от типа игры определение «сложно» будет меняться. Если ваша игра предполагает быстрый набор текста ( ztype -style ...), значение «трудный» будет иметь другое значение, чем в игре, где вам необходимо определить значение слова.

Тем не менее, у Эрудита есть способ измерить, насколько «трудным» является слово, что также довольно легко алгоритмически.

Также вы можете посмотреть, как определить «сложный» с точки зрения вашей игры. Вы можете провести бета-тестирование своей игры и классифицировать слова в соответствии с тем, как «сложные» игроки находят их в контексте вашей собственной игры.

1 голос
/ 28 февраля 2011

Трудность - это довольно аморфное понятие.Если у вас нет четкого представления о том, что вы хотите, возможно, вы могли бы взглянуть на алгоритм Портера Stemming (см., Например, оригинальная статья ).Это содержит более продвинутую идею «длины», определяя слова как имеющие форму [C](VC){m}[V];C означает блок согласных, а V - блок гласных, и это определение говорит, что слово - это необязательный C, за которым следуют m VC-блоки и, наконец, необязательный V. Значение m эторасширенный «длина».

0 голосов
/ 07 января 2016

Частота слова - очевидный выбор (конечно, не идеальный).Вы можете скачать Google n-grams V2 здесь , который является лицензией в соответствии с лицензией Creative Commons Attribution 3.0 Unported.

Формат: ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE

Пример:

enter image description here

Используемый корпус (от Лин, Юрий и др. " Синтаксические аннотации для книг Google ngram корпус. " Слушания ACLСистемные демонстрации 2012 г. Ассоциация компьютерной лингвистики, 2012 г.):

enter image description here

0 голосов
/ 24 июня 2015

Я полагаю, что оценка, с которой слово вводится в словарный запас обычных студентов, является мерой сложности.Следующим будет количество нарушений стандартного правила.Имеются в виду ваши слова с орфографией или произношением, которые, кажется, нарушают обычные правила зачета.Наконец ... значение ... может быть жесткой концепцией.... например ... попробуйте объяснить абстракцию тому, кто никогда не слышал этого слова.

0 голосов
/ 16 февраля 2012

В дополнение к таким метрикам, как Flesch-Kincaid , вы можете попробовать подход, основанный на формуле читаемости Dale-Chall , используя списки слов, которые знакомы читателямособый уровень способностей.

Реализации многих формул читабельности содержат код для оценки количества слогов в слове, что также может быть полезно.

...