Сравнение двух английских строк для сходства - PullRequest
5 голосов
/ 17 августа 2011

Итак, вот моя проблема. У меня есть два абзаца текста, и мне нужно посмотреть, похожи ли они. Не в смысле строковых метрик, а в смысле. Следующие два параграфа связаны между собой, но мне нужно выяснить, охватывают ли они «одну и ту же» тему. Любая помощь или направление для решения этой проблемы будет принята с благодарностью.

Ископаемое топливо - это топливо, образованное в результате естественных процессов, таких как анаэробное разложение погребенных мертвых организмов. Возраст организмов и их ископаемое топливо обычно составляет миллионы лет, и иногда превышает 650 миллионов лет. Ископаемое топливо, которое содержит Высокий процент углерода, включает уголь, нефть и природный газ. Диапазон ископаемых видов топлива из летучих материалов с низким содержанием углерода: водород отношения как метан, к жидкой нефти к нелетучим материалам состоит из почти чистого углерода, как антрацит. Метан может быть найдены на месторождениях углеводородов, в одиночку, связанных с нефтью, или в форма метана клатратов. Общепринято, что они образовались из окаменелых остатков мертвых растений под воздействием тепла и давление в земной коре на протяжении миллионов лет. Это биогенный теория была впервые введена Георгом Агриколой в 1556 году, а затем Михаил Ломоносов в 18 веке.

Второе:

риформинг ископаемого топлива - это метод получения водорода или других полезные продукты из ископаемых видов топлива, таких как природный газ. Это достигается в устройстве обработки, называемом риформер, который реагирует пар при высокой температуре с ископаемым топливом. Реактор метанового пара широко используется в промышленности для производства водорода. Существует также интерес к разработка гораздо меньших единиц на основе аналогичной технологии для производить водород в качестве сырья для топливных элементов. Малый пар реформирующие устройства для питания топливных элементов в настоящее время являются предметом исследования и разработки, обычно связанные с реформированием метанол или природный газ, но другие виды топлива также считаются такими как пропан, бензин, автогаз, дизельное топливо и этанол.

Ответы [ 3 ]

5 голосов
/ 17 августа 2011

Это высокий заказ. На вашем месте я бы начал читать об обработке естественного языка. НЛП - это довольно большое поле, я бы рекомендовал обратить особое внимание на вещи, упомянутые в разделе «Процессы» статьи Wikipedia Text Analytics .

Я думаю, что если вы используете поиск информации , распознавание именованных сущностей и анализ настроений , у вас все будет в порядке.

3 голосов
/ 17 августа 2011

В общем, я считаю, что это все еще открытая проблема.Обработка естественного языка - все еще зарождающаяся область, и хотя мы можем сделать несколько действительно хороших вещей, все еще чрезвычайно трудно выполнять такую ​​классификацию и категоризацию.

Я не эксперт по НЛП, но вы могли быхочу проверить эти слайды лекций , которые обсуждают анализ настроений и обнаружение авторства.Методы, которые вы могли бы использовать для такого рода сравнения текста, который вы предложили, связаны с методами, которые вы использовали бы для вышеупомянутого анализа, и вы можете найти это хорошей отправной точкой.

Надеюсь, это поможет!

2 голосов
/ 17 августа 2011

Вы также можете взглянуть на модель скрытого распределения дирихле (LDA) в машинном обучении.Идея состоит в том, чтобы найти низкоразмерное представление каждого документа (или абзаца) просто как распределение по некоторым «темам».Модель обучается без присмотра, используя набор документов / параграфов.

Если вы запустите LDA для своей коллекции абзацев, то, посмотрев на сходство вектора скрытых тем, вы сможете определить, связаны ли эти два абзаца или нет.

Конечно,базовый уровень заключается в том, чтобы не использовать LDA, а вместо этого использовать термин частоты (дополненный tf / idf) для измерения сходства (модель векторного пространства).

...