Question

Итак, вот моя проблема. У меня есть два абзаца текста, и мне нужно посмотреть, похожи ли они. Не в смысле строковых метрик, а в смысле. Следующие два параграфа связаны между собой, но мне нужно выяснить, охватывают ли они «одну и ту же» тему. Любая помощь или направление для решения этой проблемы будет принята с благодарностью.

Ископаемое топливо - это топливо, образованное в результате естественных процессов, таких как анаэробное разложение погребенных мертвых организмов. Возраст организмов и их ископаемое топливо обычно составляет миллионы лет, и иногда превышает 650 миллионов лет. Ископаемое топливо, которое содержит Высокий процент углерода, включает уголь, нефть и природный газ. Диапазон ископаемых видов топлива из летучих материалов с низким содержанием углерода: водород отношения как метан, к жидкой нефти к нелетучим материалам состоит из почти чистого углерода, как антрацит. Метан может быть найдены на месторождениях углеводородов, в одиночку, связанных с нефтью, или в форма метана клатратов. Общепринято, что они образовались из окаменелых остатков мертвых растений под воздействием тепла и давление в земной коре на протяжении миллионов лет. Это биогенный теория была впервые введена Георгом Агриколой в 1556 году, а затем Михаил Ломоносов в 18 веке.

Второе:

риформинг ископаемого топлива - это метод получения водорода или других полезные продукты из ископаемых видов топлива, таких как природный газ. Это достигается в устройстве обработки, называемом риформер, который реагирует пар при высокой температуре с ископаемым топливом. Реактор метанового пара широко используется в промышленности для производства водорода. Существует также интерес к разработка гораздо меньших единиц на основе аналогичной технологии для производить водород в качестве сырья для топливных элементов. Малый пар реформирующие устройства для питания топливных элементов в настоящее время являются предметом исследования и разработки, обычно связанные с реформированием метанол или природный газ, но другие виды топлива также считаются такими как пропан, бензин, автогаз, дизельное топливо и этанол.

Benson · Answer 1 · 17 августа 2011

Это высокий заказ. На вашем месте я бы начал читать об обработке естественного языка. НЛП - это довольно большое поле, я бы рекомендовал обратить особое внимание на вещи, упомянутые в разделе «Процессы» статьи Wikipedia Text Analytics .

Я думаю, что если вы используете поиск информации , распознавание именованных сущностей и анализ настроений , у вас все будет в порядке.

templatetypedef · Answer 2 · 17 августа 2011

В общем, я считаю, что это все еще открытая проблема.Обработка естественного языка - все еще зарождающаяся область, и хотя мы можем сделать несколько действительно хороших вещей, все еще чрезвычайно трудно выполнять такую классификацию и категоризацию.

Я не эксперт по НЛП, но вы могли быхочу проверить эти слайды лекций , которые обсуждают анализ настроений и обнаружение авторства.Методы, которые вы могли бы использовать для такого рода сравнения текста, который вы предложили, связаны с методами, которые вы использовали бы для вышеупомянутого анализа, и вы можете найти это хорошей отправной точкой.

Надеюсь, это поможет!

reza · Answer 3 · 17 августа 2011

Вы также можете взглянуть на модель скрытого распределения дирихле (LDA) в машинном обучении.Идея состоит в том, чтобы найти низкоразмерное представление каждого документа (или абзаца) просто как распределение по некоторым «темам».Модель обучается без присмотра, используя набор документов / параграфов.

Если вы запустите LDA для своей коллекции абзацев, то, посмотрев на сходство вектора скрытых тем, вы сможете определить, связаны ли эти два абзаца или нет.

Конечно,базовый уровень заключается в том, чтобы не использовать LDA, а вместо этого использовать термин частоты (дополненный tf / idf) для измерения сходства (модель векторного пространства).

Сравнение двух английских строк для сходства

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сравнение двух английских строк для сходства

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы