Есть ли какая-нибудь статистика по опечаткам? - PullRequest
11 голосов
/ 10 августа 2010

Мне нужно найти список часто ошибочных клавиш на клавиатуре для проекта, над которым я работаю. По сути, мне нужно знать, какую клавишу пользователь пытается нажать и какую клавишу он нажимает, и сравнить, как часто это происходит.

Под «сравнительной мерой» я подразумеваю, что я хотел бы сказать, что зная, что пользователь набрал неверную клавишу «c», он с большей вероятностью нажмет клавишу «x» против клавиши «v» в основном столбец «общность» ниже).

Мой идеальный список будет примерно таким, как показано ниже, чтобы дать вам представление о том, что я ищу.

Target Key    Actual Key   Commonness...
----------    -----------  -------------
v             c            100
v             b            95
c             x            100
c             v            90

И так далее ...

Кто-нибудь сталкивался с авторитетными источниками, которые могли бы предоставить эту информацию? Мне пока не повезло ...

Ответы [ 4 ]

5 голосов
/ 12 августа 2010

Я действительно должен был разобраться в подобной проблеме пару лет назад.Когда я начинал проект, я понятия не имел, с чего начать, поэтому, надеюсь, я смогу спасти вас кого-нибудь еще в такой же ситуации, какое-то время.

Суть в том, что вы можете воспользоваться большим объемом работысделано в других областях.Я обнаружил, что наиболее важными из этих полей являются Доменное имя Регистрация.

Например, на сайте DomainTools есть ' Генератор опечаток домена ', который работает путем генерации списка опечаток доменных имен на основена родительском доменном имени, которое вы вводите.

Учитывая, что профессиональные владельцы доменных имен (aks squatters ) составляют значительную часть бизнеса любого регистратора, легко понять, для кого предназначен этот инструментдля (т. е. сквоттеры заинтересованы в получении общих опечаток доменных имен с большим трафиком - даже 2% ошибок для доменного имени с большим трафиком - это большой трафик * опечатка доменное имя.

Кроме того, я бы порекомендовал замечательное подробное исследование Microsoft Research за 2005 этого вопроса.

Наконец, в вычислительной лингвистике есть ключевая концепция.происходит от расстояния Левенштейна , называемого расстояния Дамерау-Левенштейна , что расширяет основную идею Левенштейна о расстоянии редактирования к конкретной проблеме людей, печатающих на клавиатуре.

Главный вывод из его исследовательской работы 1964 года заключался в том, что 80% всех опечаток можно описать одной из четырех операций - вставка, удаление, замена одного символа или транспонированиеиз двух символов.

Дамерау не только различил эти четыре операции редактирования, но также заявил, что они соответствуют более чем 80% всех орфографических ошибок человека.(Единственная ссылка, которую я предоставил для DL, - это статья в Википедии; я сделал это, потому что я думаю, что это отличное и краткое введение, а также содержит псевдокод для алгоритма DL, и, наконец, статья содержит ссылки на основные онлайн-источники для DL.

1 голос
/ 19 декабря 2013

Большинство опечаток на моем iPhone / Touch:

C для F! «Cred clies crom Cranland по пятницам!»

Кроме того, пробел для любой буквы в нижнем ряду клавиатуры iPhone:

"Боб листет к З топ и Хейл."

0 голосов
/ 05 июня 2012

Программа коррекции орфографии на основе модели шумного канала Кернигана, Черча и Гейла может помочь. В этой статье авторы моделируют опечатки как шумный канал между автором и компьютером. В приложении есть таблицы опечаток, которые можно увидеть в корпусе публикаций Associated Press. Существует таблица для каждого из следующих видов опечаток:

  • удаление
  • вставка
  • замена
  • Транспонирование

Например, изучая таблицу вставок, мы видим, что l был вставлен неправильно после l 128 раз (наибольшее число в этом столбце). Используя эти таблицы, вы можете рассчитать числа, аналогичные тем, которые вы хотите.

0 голосов
/ 10 августа 2010

Я не знаю источника статистики, но, похоже, будет большая разница между (1) тем, кто нажмет не ту клавишу из-за плохого позиционирования пальца, что большинство машинисток сразу же возвращает назад и исправляет на лету, поэтомустатистические данные о таких событиях могут быть получены только в режиме реального времени, в отличие от табулирования того, что встречается с большинством корректоров орфографии, и (2) машинистка нажимает правильные клавиши, но в неправильном порядке («naem» вместо «name») из-заскорость / отвлечение / нейрон вызывает, и (3) машинистка нажимает неправильные клавиши из-за того, что не знает, как писать («обслуживание» вместо «обслуживание»).

Для случая № 1, если Наиболее распространенными буквами на английском языке являются E, T, A ... тогда, вероятно, есть хороший шанс, что они также являются наиболее пропущенными ключами, в этом порядке, хотя это не говорит о том, кто из соседей, например, "w"и "r" поражены больше всего.Печатница, пытающаяся найти ключ конца строки, такой как «а», может на самом деле ошибочно нажимать на CAPS LOCK так же часто, как и на «s».

Лично я обычно скучаю по не альфа, особенно если охотюсьи клевать для / vs \, {vs [, 'vs ", запятая против периода при наборе отформатированных чисел и валюты, пропуская сдвиг и получая 8 вместо *, и т. д., и т. д., так как при программировании преобладает не альфа-типэти случаи, вероятно, гораздо чаще встречаются у программистов, чем у непрограммистов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...