Question

Мне нужно найти список часто ошибочных клавиш на клавиатуре для проекта, над которым я работаю. По сути, мне нужно знать, какую клавишу пользователь пытается нажать и какую клавишу он нажимает, и сравнить, как часто это происходит.

Под «сравнительной мерой» я подразумеваю, что я хотел бы сказать, что зная, что пользователь набрал неверную клавишу «c», он с большей вероятностью нажмет клавишу «x» против клавиши «v» в основном столбец «общность» ниже).

Мой идеальный список будет примерно таким, как показано ниже, чтобы дать вам представление о том, что я ищу.

Target Key    Actual Key   Commonness...
----------    -----------  -------------
v             c            100
v             b            95
c             x            100
c             v            90

И так далее ...

Кто-нибудь сталкивался с авторитетными источниками, которые могли бы предоставить эту информацию? Мне пока не повезло ...

doug · Answer 1 · 12 августа 2010

Я действительно должен был разобраться в подобной проблеме пару лет назад.Когда я начинал проект, я понятия не имел, с чего начать, поэтому, надеюсь, я смогу спасти вас кого-нибудь еще в такой же ситуации, какое-то время.

Суть в том, что вы можете воспользоваться большим объемом работысделано в других областях.Я обнаружил, что наиболее важными из этих полей являются Доменное имя Регистрация.

Например, на сайте DomainTools есть ' Генератор опечаток домена ', который работает путем генерации списка опечаток доменных имен на основена родительском доменном имени, которое вы вводите.

Учитывая, что профессиональные владельцы доменных имен (aks squatters ) составляют значительную часть бизнеса любого регистратора, легко понять, для кого предназначен этот инструментдля (т. е. сквоттеры заинтересованы в получении общих опечаток доменных имен с большим трафиком - даже 2% ошибок для доменного имени с большим трафиком - это большой трафик * опечатка доменное имя.

Кроме того, я бы порекомендовал замечательное подробное исследование Microsoft Research за 2005 этого вопроса.

Наконец, в вычислительной лингвистике есть ключевая концепция.происходит от расстояния Левенштейна , называемого расстояния Дамерау-Левенштейна , что расширяет основную идею Левенштейна о расстоянии редактирования к конкретной проблеме людей, печатающих на клавиатуре.

Главный вывод из его исследовательской работы 1964 года заключался в том, что 80% всех опечаток можно описать одной из четырех операций - вставка, удаление, замена одного символа или транспонированиеиз двух символов.

Дамерау не только различил эти четыре операции редактирования, но также заявил, что они соответствуют более чем 80% всех орфографических ошибок человека.(Единственная ссылка, которую я предоставил для DL, - это статья в Википедии; я сделал это, потому что я думаю, что это отличное и краткое введение, а также содержит псевдокод для алгоритма DL, и, наконец, статья содержит ссылки на основные онлайн-источники для DL.

The AntiFox · Answer 2 · 19 декабря 2013

Большинство опечаток на моем iPhone / Touch:

C для F! «Cred clies crom Cranland по пятницам!»

Кроме того, пробел для любой буквы в нижнем ряду клавиатуры iPhone:

"Боб листет к З топ и Хейл."

mndrix · Answer 3 · 05 июня 2012

Программа коррекции орфографии на основе модели шумного канала Кернигана, Черча и Гейла может помочь. В этой статье авторы моделируют опечатки как шумный канал между автором и компьютером. В приложении есть таблицы опечаток, которые можно увидеть в корпусе публикаций Associated Press. Существует таблица для каждого из следующих видов опечаток:

удаление
вставка
замена
Транспонирование

Например, изучая таблицу вставок, мы видим, что l был вставлен неправильно после l 128 раз (наибольшее число в этом столбце). Используя эти таблицы, вы можете рассчитать числа, аналогичные тем, которые вы хотите.

joe snyder · Answer 4 · 10 августа 2010

Я не знаю источника статистики, но, похоже, будет большая разница между (1) тем, кто нажмет не ту клавишу из-за плохого позиционирования пальца, что большинство машинисток сразу же возвращает назад и исправляет на лету, поэтомустатистические данные о таких событиях могут быть получены только в режиме реального времени, в отличие от табулирования того, что встречается с большинством корректоров орфографии, и (2) машинистка нажимает правильные клавиши, но в неправильном порядке («naem» вместо «name») из-заскорость / отвлечение / нейрон вызывает, и (3) машинистка нажимает неправильные клавиши из-за того, что не знает, как писать («обслуживание» вместо «обслуживание»).

Для случая № 1, если Наиболее распространенными буквами на английском языке являются E, T, A ... тогда, вероятно, есть хороший шанс, что они также являются наиболее пропущенными ключами, в этом порядке, хотя это не говорит о том, кто из соседей, например, "w"и "r" поражены больше всего.Печатница, пытающаяся найти ключ конца строки, такой как «а», может на самом деле ошибочно нажимать на CAPS LOCK так же часто, как и на «s».

Лично я обычно скучаю по не альфа, особенно если охотюсьи клевать для / vs \, {vs [, 'vs ", запятая против периода при наборе отформатированных чисел и валюты, пропуская сдвиг и получая 8 вместо *, и т. д., и т. д., так как при программировании преобладает не альфа-типэти случаи, вероятно, гораздо чаще встречаются у программистов, чем у непрограммистов.

Есть ли какая-нибудь статистика по опечаткам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли какая-нибудь статистика по опечаткам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов