Как определить язык данного текста - PullRequest
9 голосов
/ 05 мая 2011

В моем приложении Rails 3 пользователи могут писать сообщения на форуме. Я хотел бы определить, какой язык для данного сообщения. Я заинтересован в английском, русском и иврите. Есть ли в Ruby / Rails встроенная библиотека для такой задачи? Если нет, то любые идеи будут оценены.

Ответы [ 8 ]

6 голосов
/ 07 мая 2011

Используйте это: https://github.com/nashby/wtf_lang

"ruby is so awesome!".lang # => "en"
"ruby is so awesome!".full_lang # => "ENGLISH"
5 голосов
/ 05 мая 2011

Вы можете использовать API, предоставленный Google, чтобы угадать его с помощью Google Translate.

Смотрите документацию здесь: http://code.google.com/apis/language/translate/v1/using_rest_langdetect.html

2 голосов
/ 05 мая 2011

Поскольку вас интересуют языки с разными наборами символов, вы можете выкопать коды символов, которые преимущественно находятся в ваших строках.Затем вы можете увидеть, попадают ли они в наборы кодов, которые представляют иврит / криклические символы.

1 голос
/ 28 июня 2013

API определения языка предоставляет Ruby GEM для определения языка.

1 голос
/ 06 мая 2011

Возможно, вы могли бы взглянуть на whatlanguage самоцвет?

1 голос
/ 05 мая 2011

Посмотрите на этот блог
http://blog.kenweiner.com/2008/04/server-side-language-detection-with.html
Это может быть полезно

0 голосов
/ 18 августа 2014

http://rubygems.org/gems/prose Проза доза это без драгоценного камня.Попробуй.

0 голосов
/ 10 сентября 2012

Просто быстрая демонстрация WhatLanguage для всех, кто заинтересован: http://www.youtube.com/watch?v=lNqZ2cqOReo&list=UUJ_3fstMOH-g4yBxtvgAWkw&index=0&feature=plcp

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...