Вопросы с тегом н-грамм

3 голосов

1 ответ

н граммы в Apache Mahout

Я запускаю алгоритм наивного байесовского классификатора через apache mahout. У нас есть...

Greenhorn / 20 декабря 2011

0 голосов

3 ответов

генерирование биграммы из предложения в списке

У меня есть список, в котором содержатся предложения, выделенные из тестового абзаца.Я пытаюсь...

user1052462 / 07 декабря 2011

2 голосов

2 ответов

Генерация таблицы n-грамм с запросом SQL

Я пытаюсь реализовать нечеткий поиск на клиентской стороне JavaScript, чтобы искать большие базы...

Breton / 07 декабря 2011

0 голосов

2 ответов

Unigram с использованием Python

Я пытаюсь сгенерировать униграмму из текстового файла. Но отображается только биграмма для первой...

user1052462 / 29 ноября 2011

7 голосов

3 ответов

Как сгенерировать n-грамм в скале?

Я пытаюсь закодировать диссоциированный алгоритм печати на основе n-граммы в scala.Как создать...

user1002579 / 24 ноября 2011

3 голосов

2 ответов

SOLR: проблемы с NGramFilterFactory

Я использую SOLR в качестве поисковой системы для интрасети с чуть более 40000 документов.Я...

harpax / 13 октября 2011

3 голосов

1 ответ

Как эффективно хранить большое количество нграмм?

Я извлекаю 4 грамма из двоичных элементов в шестнадцатеричной форме, это означает, что я могу иметь...

gbr / 12 октября 2011

2 голосов

2 ответов

Сохранить результат Google NGram как .csv

Есть ли простой способ сохранить результат Google Ngram http://books.google.com/ngrams/ как csv?...

user987875 / 10 октября 2011

6 голосов

2 ответов

Алгоритм НЛП для «заполнения» поисковых терминов

Я пытаюсь написать алгоритм (который, как я предполагаю, будет опираться на методы обработки...

Trindaz / 30 сентября 2011

18 голосов

3 ответов

Быстрый расчет n-грамм

Я использую NLTK для поиска n-граммов в корпусе, но в некоторых случаях это занимает очень много...

Trindaz / 29 сентября 2011

4 голосов

2 ответов

подсчет n-грамм в MySQL

Я строю базу данных MySQL, в которой будет примерно 10 000 записей. Каждая запись будет содержать...

Ron Stanley / 21 сентября 2011

0 голосов

2 ответов

Чем больше я использую Java HashMap, тем больше падает производительность - даже при стабильном размере

Я хочу просканировать огромный корпус текста и посчитать частоты слов (частоты n-грамм на самом...

Alexandros / 19 сентября 2011

2 голосов

1 ответ

Автоматическое связывание категорий друг с другом при категоризации текста

Я работал над проектом по извлечению большого количества коротких текстов и распределению их по...

mludd / 18 августа 2011

10 голосов

2 ответов

Извлечение ключевых фраз из текста (1-4 слова нграмм)

Каков наилучший способ извлечь ключевые фразы из блока текста? Я пишу инструмент для извлечения...

Carter Cole / 17 августа 2011

4 голосов

3 ответов

Пакет для генерации моделей языка n-грамм с сглаживанием?(Альтернативы НЛТК)

Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но другие это...

Alan H. / 14 июля 2011

0 голосов

1 ответ

Сходство N-Gram, TF-IDF и Cosine в Perl

Я пытаюсь выполнить какой-то паттерн 'майнинг' в части из нескольких слов в каждой строке. Я провел...

damola / 27 июня 2011

1 голос

1 ответ

Solr NGramTokenizerFactory и PatternReplaceCharFilterFactory - результаты анализатора несовместимы с результатами запроса

В настоящее время я использую то, что (по ошибке) я думаю, было бы довольно простой реализацией...

Josh / 23 июня 2011

1 голос

2 ответов

Компенсация разницы в размерах категории N-граммовой категории

В последнее время меня интересует классификация текста и языковая классификация, основанная на...

mludd / 17 мая 2011

1 голос

1 ответ

Хранить триграммы в базе данных или генерировать на лету?

Я пытаюсь создать приложение, которое использует триграммы для приблизительного соответствия строк....

ferdyh / 06 мая 2011

6 голосов

2 ответов

n-граммное моделирование с помощью Java hashmap

Мне нужно смоделировать коллекцию n-граммов (последовательности из n слов) и их контексты (слова,...

Nikola / 05 мая 2011

2 голосов

1 ответ

где скачать многоязычный список слов из Викисловаря?

Мне было интересно, есть ли место для загрузки многоязычных списков слов из Викисловаря?

ct_ / 24 апреля 2011

13 голосов

2 ответов

Создание файла языковой модели ARPA с 50000 слов

Я хочу создать файл языковой модели ARPA, содержащий почти 50 000 слов. Я не могу сгенерировать...

Christina / 21 апреля 2011

4 голосов

1 ответ

Расчет балльной оценки взаимной информации (PMI) для n-граммов в Python

У меня большой корпус из n-грамм и несколько внешних n-грамм. Я хочу рассчитать оценку PMI каждого...

Hossein / 08 марта 2011

1 голос

1 ответ

Сфинкс 4, поврежден ARPA LM?

У меня есть ARPA LM, сгенерированный kylm , при запуске SPHINX я получаю эту трассировку стека...

FearUs / 28 февраля 2011

2 голосов

1 ответ

выполнить поиск в очень большом файле ARPA в очень короткое время в Java

У меня есть файл ARPA, который составляет почти 1 ГБ. Я должен сделать поиск в нем менее чем за 1...

sepanta / 26 февраля 2011