Я делаю Подтверждение концепции (POC) для конечной цели генерации вопросов из большого корпуса (китайский язык).Я хочу создать все возможные вопросы, чтобы ответ и вопрос были доступны в тексте.Для этой цели я планирую использовать сеть кодировщик-декодер, как описано ниже:
Кодер: Кодер берет предварительно обработанное предложение из входного текста и преобразует его в соответствии с весамискрытого слоя.Этот скрытый слой создает промежуточное представление входного текста и передает его декодеру.
Декодер: Декодер преобразует информацию о скрытом слое в форму вопроса.
POC: Для начала я собрал несколько китайских документов и создал собственный корпус.Затем, затем я сделал чистку (например, удаление не алфавитов), затем продолжил сегментацию с использованием jieba, и дополнительно удалил стоп-слова.Я составил таблицу частот распределения слов.Теперь, я застрял с задачей определения, в частности, контекста не английского языка.Могу ли я выполнить эту задачу с помощью Snowball?Если нет, каков альтернативный обходной путь?После завершения я хочу продолжить преобразование данных (bow, tf-idf).После того, как данные были очищены, векторизованы и преобразованы, я хочу применить модель.
Если у нас есть предложение или параграф, как мы можем генерировать все возможные вопросы, чтобы ответы и вопросы были доступны втекст?
Pls.Поправьте меня, если я иду куда-то не так в процессе.Любая помощь или существующая работа для ссылок по неанглийскому тексту
Я уже ссылался на следующие ссылки: 1) Докторская диссертация Майкла Хейлмана 2) http://www.iro.umontreal.ca/~felipe/TALN2010/Xml/Papers/all/taln2010_submission_172.pdf 3) http://groups.csail.mit.edu/sls/publications/2009/SIGSLaTE09_Xu.pdf