Question

Я хотел бы разделить текст на предложения в PHP.В настоящее время я использую регулярное выражение, которое дает точность ~ 95% и хотелось бы улучшить его, используя лучший подход.Я видел инструменты NLP, которые делают это в Perl, Java и C, но не видел ничего подходящего для PHP.Знаете ли вы о таком инструменте?

ridgerunner · Answer 1 · 01 мая 2011

Расширенное решение регулярных выражений

Если вы заботитесь об обработке: Mr. и Mrs. и т. Д. Сокращений, то следующее единственное решение регулярных выражений работает довольно хорошо:

<?php // test.php Rev:20160820_1800
$split_sentences = '%(?#!php/i split_sentences Rev:20160820_1800)
    # Split sentences on whitespace between them.
    # See: http://stackoverflow.com/a/5844564/433790
    (?<=          # Sentence split location preceded by
      [.!?]       # either an end of sentence punct,
    | [.!?][\'"]  # or end of sentence punct and quote.
    )             # End positive lookbehind.
    (?<!          # But don\'t split after these:
      Mr\.        # Either "Mr."
    | Mrs\.       # Or "Mrs."
    | Ms\.        # Or "Ms."
    | Jr\.        # Or "Jr."
    | Dr\.        # Or "Dr."
    | Prof\.      # Or "Prof."
    | Sr\.        # Or "Sr."
    | T\.V\.A\.   # Or "T.V.A."
                 # Or... (you get the idea).
    )             # End negative lookbehind.
    \s+           # Split on whitespace between sentences,
    (?=\S)        # (but not at end of string).
    %xi';  // End $split_sentences.

$text = 'This is sentence one. Sentence two! Sentence thr'.
        'ee? Sentence "four". Sentence "five"! Sentence "'.
        'six"? Sentence "seven." Sentence \'eight!\' Dr. '.
        'Jones said: "Mrs. Smith you have a lovely daught'.
        'er!" The T.V.A. is a big project! '; // Note ws at end.

$sentences = preg_split($split_sentences, $text, -1, PREG_SPLIT_NO_EMPTY);
for ($i = 0; $i < count($sentences); ++$i) {
    printf("Sentence[%d] = [%s]\n", $i + 1, $sentences[$i]);
}
?>

Обратите внимание, что вы можете легко добавлять или убирать сокращения из выражения. Учитывая следующий тестовый параграф:

Это первое предложение. Приговор два! Приговор три? Приговор "четыре". Приговор "пять"! Приговор "шесть"? Приговор "семь". Приговор "восемь!" Доктор Джонс сказал: «Миссис Смит, у вас прекрасная дочь!» Т.В.А. большой проект!

Вот вывод из скрипта:

Sentence[1] = [This is sentence one.]
Sentence[2] = [Sentence two!]
Sentence[3] = [Sentence three?]
Sentence[4] = [Sentence "four".]
Sentence[5] = [Sentence "five"!]
Sentence[6] = [Sentence "six"?]
Sentence[7] = [Sentence "seven."]
Sentence[8] = [Sentence 'eight!']
Sentence[9] = [Dr. Jones said: "Mrs. Smith you have a lovely daughter!"]
Sentence[10] = [The T.V.A. is a big project!]

необходимое решение регулярных выражений

Автор вопроса отметил, что приведенное выше решение "пропускает множество вариантов" и не является достаточно универсальным. Я не уверен, что это значит, но суть вышеприведенного выражения настолько проста и понятна, насколько это возможно. Вот оно:

$re = '/(?<=[.!?]|[.!?][\'"])\s+(?=\S)/';
$sentences = preg_split($re, $text, -1, PREG_SPLIT_NO_EMPTY);

Обратите внимание, что оба решения правильно идентифицируют предложения, заканчивающиеся кавычкой после конечной пунктуации. Если вас не интересуют совпадающие предложения, заканчивающиеся кавычкой, регулярное выражение можно упростить до: /(?<=[.!?])\s+(?=\S)/.

Редактировать: 20130820_1000 Добавлено T.V.A. (еще одно пунктуированное слово, которое следует игнорировать) для регулярного выражения и проверки строки. (чтобы ответить на вопрос с комментариями PapyRef)

Редактировать: 20130820_1800 Приведены в порядок и переименованы регулярное выражение и добавлен Шебанг. Также исправлены регулярные выражения для предотвращения разделения текста на конечные пробелы.

clutterjoe · Answer 2 · 16 сентября 2011

Незначительное улучшение на чужой работе:

$re = '/# Split sentences on whitespace between them.
(?<=                # Begin positive lookbehind.
  [.!?]             # Either an end of sentence punct,
| [.!?][\'"]        # or end of sentence punct and quote.
)                   # End positive lookbehind.
(?<!                # Begin negative lookbehind.
  Mr\.              # Skip either "Mr."
| Mrs\.             # or "Mrs.",
| Ms\.              # or "Ms.",
| Jr\.              # or "Jr.",
| Dr\.              # or "Dr.",
| Prof\.            # or "Prof.",
| Sr\.              # or "Sr.",
| \s[A-Z]\.              # or initials ex: "George W. Bush",
                    # or... (you get the idea).
)                   # End negative lookbehind.
\s+                 # Split on whitespace between sentences.
/ix';

$sentences = preg_split($re, $story, -1, PREG_SPLIT_NO_EMPTY);

LeMoussel · Answer 3 · 22 августа 2013

@ ridgerunner Я написал ваш PHP-код на C #

В результате я получаю 2 предложения:

г. J. Dujardin régle sa T.V.
A. en esp. uniquement

Правильным результатом должно быть предложение: Мистер. Я. Дюжарден регле са Т.В.А. en esp. uniquement

и с нашим тестовым параграфом

string sText = "This is sentence one. Sentence two! Sentence three? Sentence \"four\". Sentence \"five\"! Sentence \"six\"? Sentence \"seven.\" Sentence 'eight!' Dr. Jones said: \"Mrs. Smith you have a lovely daughter!\" The T.V.A. is a big project!";

Результат

index: 0 sentence: This is sentence one.
index: 22 sentence: Sentence two!
index: 36 sentence: Sentence three?
index: 52 sentence: Sentence "four".
index: 69 sentence: Sentence "five"!
index: 86 sentence: Sentence "six"?
index: 102 sentence: Sentence "seven.
index: 118 sentence: " Sentence 'eight!'
index: 136 sentence: ' Dr. Jones said: "Mrs. Smith you have a lovely daughter!
index: 193 sentence: " The T.V.
index: 203 sentence: A. is a big project!

C # код:

                string sText = "Mr. J. Dujardin régle sa T.V.A. en esp. uniquement";
                Regex rx = new Regex(@"(\S.+?
                                       [.!?]               # Either an end of sentence punct,
                                       | [.!?]['""]         # or end of sentence punct and quote.
                                       )
                                       (?<!                 # Begin negative lookbehind.
                                          Mr.                   # Skip either Mr.
                                        | Mrs.                  # or Mrs.,
                                        | Ms.                   # or Ms.,
                                        | Jr.                   # or Jr.,
                                        | Dr.                   # or Dr.,
                                        | Prof.                 # or Prof.,
                                        | Sr.                   # or Sr.,
                                        | \s[A-Z].              # or initials ex: George W. Bush,
                                        | T\.V\.A\.             # or "T.V.A."
                                       )                    # End negative lookbehind.
                                       (?=|\s+|$)", 
                                       RegexOptions.CultureInvariant | RegexOptions.IgnorePatternWhitespace | RegexOptions.Compiled);
                foreach (Match match in rx.Matches(sText))
                {
                    Console.WriteLine("index: {0}  sentence: {1}", match.Index, match.Value);
                }

user723220 · Answer 4 · 30 апреля 2011

Создайте список сокращений, подобных этому

$skip_array = array ( 

'Jr', 'Mr', 'Mrs', 'Ms', 'Dr', 'Prof', 'Sr' , etc.

Скомпилируйте их в выражение

$skip = '';
foreach($skip_array as $abbr) {
$skip = $skip . (empty($skip) ? '' : '|') . '\s{1}' . $abbr . '[.!?]';
}

Последний раз запустите этот preg_split, чтобы разбить на предложения.

$lines = preg_split ("/(?<!$skip)(?<=[.?!])\s+(?=[^a-z])/",
                     $txt, -1, PREG_SPLIT_NO_EMPTY);

И если вы обрабатываете HTML, следите за удалением тегов, которые устраняют пробел между предложениями. <p></p> Если у вас есть situations.Like этот where.They, соединенный вместе, становится намного труднееразобрать.

jisaacstone · Answer 5 · 26 апреля 2011

Я использовал это регулярное выражение:

preg_split('/(?<=[.?!])\s(?=[A-Z"\'])/', $text);

Не будет работать с предложением, начинающимся с числа, но также должно иметь очень мало ложных срабатываний.Конечно, то, что вы делаете, имеет значение.Моя программа теперь использует

explode('.',$text);

, потому что я решил, что скорость важнее точности.

Trav · Answer 6 · 26 апреля 2011

В качестве низкотехнологичного подхода вы можете рассмотреть возможность использования в цикле серии вызовов explode, используя.,!, И?как твоя иглаЭто было бы очень требовательно к памяти и процессору (как и большинство текстовых процессоров).У вас будет куча временных массивов и один мастер-массив со всеми найденными предложениями, численно проиндексированными в правильном порядке.

Кроме того, вам придется проверять общие исключения (например, в названиях, таких как Mr. и Dr. ), но все вмассив, эти типы проверок не должны быть такими плохими.

Я не уверен, что это лучше, чем регулярное выражение с точки зрения скорости и масштабирования, но это будет стоить того.Насколько велики эти блоки текста, которые вы хотите разбить на предложения?

sln · Answer 7 · 17 февраля 2011

Попробуйте это -
https://stackoverflow.com/questions/366284/natural-language-identification-in-php
http://pear.php.net/package/Text_LanguageDetect

определение границ предложений php

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Расширенное решение регулярных выражений

необходимое решение регулярных выражений

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

определение границ предложений php

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Расширенное решение регулярных выражений

необходимое решение регулярных выражений

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы