Question

Мне нужно взять входной текстовый файл с одним словом. Затем мне нужно найти lemma_names, определение и примеры синтаксиса слова, используя wordnet. Я пролистал книгу: «Обработка текста на Python с помощью NLTK 2.0 Cookbook», а также «Обработка естественного языка с использованием NLTK», чтобы помочь мне в этом направлении. Хотя я понял, как это можно сделать с помощью терминала, я не могу сделать то же самое с помощью текстового редактора.

Например, если во входном тексте есть слово «ошеломлено», вывод должен быть таким:

ошарашил (глагол) flabbergast, boggle, чаша переполнена с изумлением; "Это уму непостижимо!" (прилагательное) ошеломленный, ошеломленный, ошеломленный, ошеломленный, ошеломленный, ошеломленный, ошеломленный - как будто ошеломленный с удивлением и удивлением; «полицейский круг был ошеломлен ее отрицанием того, что видел аварию»; «ошарашенные старейшины потеряли дар речи»; "был ошеломлен новостями о своем продвижении по службе"

Синтезы, определения и примеры предложений получены из WordNet напрямую!

У меня есть следующий фрагмент кода:


from __future__ import division
import nltk
from nltk.corpus import wordnet as wn


tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
fp = open("inpsyn.txt")
data = fp.read()

#to tokenize input text into sentences

print '\n-----\n'.join(tokenizer.tokenize(data))# splits text into sentences

#to tokenize the tokenized sentences into words

tokens = nltk.wordpunct_tokenize(data)
text = nltk.Text(tokens)
words = [w.lower() for w in text]  
print words     #to print the tokens

for a in words:
    print a

syns = wn.synsets(a)
print "synsets:", syns

for s in syns:
    for l in s.lemmas:
        print l.name
    print s.definition
    print s.examples

Я получаю следующий вывод:


flabbergasted

['flabbergasted']
flabbergasted
synsets: [Synset('flabbergast.v.01'), Synset('dumbfounded.s.01')]
flabbergast
boggle
bowl_over
overcome with amazement
['This boggles the mind!']
dumbfounded
dumfounded
flabbergasted
stupefied
thunderstruck
dumbstruck
dumbstricken
as if struck dumb with astonishment and surprise
['a circle of policement stood dumbfounded by her denial of having seen the accident', 'the flabbergasted aldermen were speechless', 'was thunderstruck by the news of his promotion']

Есть ли способ извлечь часть речи вместе с группой имен лемм?

Andrey Sboev · Answer 1 · 04 апреля 2011

def synset(word):
    wn.synsets(word)

ничего не возвращает, поэтому по умолчанию вы получаете None

вы должны написать

def synset(word):
    return wn.synsets(word)

Извлечение названий лемм:

from nltk.corpus import wordnet
syns = wordnet.synsets('car')
syns[0].lemmas[0].name
>>> 'car'
[s.lemmas[0].name for s in syns]
>>> ['car', 'car', 'car', 'car', 'cable_car']


[l.name for s in syns for l in s.lemmas]
>>>['car', 'auto', 'automobile', 'machine', 'motorcar', 'car', 'railcar', 'railway_car', 'railroad_car', 'car', 'gondola', 'car', 'elevator_car', 'cable_car', 'car']

Chandan Gupta · Answer 2 · 27 сентября 2013

Здесь я создал модуль, который можно легко использовать (импортировать), и с передачей ему строки вернет все слова леммы строки.

Модуль:

#!/usr/bin/python2.7
''' pass a string to this funciton ( eg 'car') and it will give you a list of
words which is related to cat, called lemma of CAT. '''
from nltk.corpus import wordnet as wn
import sys
#print all the synset element of an element
def lemmalist(str):
    syn_set = []
    for synset in wn.synsets(str):
        for item in synset.lemma_names:
            syn_set.append(item)
    return syn_set

Использование:

Примечание: имя модуля - lemma.py, следовательно, "из леммы импорта леммы"

>>> from lemma import lemmalist
>>> lemmalist('car')
['car', 'auto', 'automobile', 'machine', 'motorcar', 'car', 'railcar', 'railway_car', 'railroad_car', 'car', 'gondola', 'car', 'elevator_car', 'cable_car', 'car']

Приветствия!

bob90937 · Answer 3 · 24 октября 2016

synonyms = []
for syn in wordnet.synsets("car"):
    for l in syn.lemmas():
        synonyms.append(l.name())
print synonyms

bro-grammer · Answer 4 · 01 февраля 2018

В NLTK 3.0, lemma_names изменено с атрибута на метод.Так что, если вы получаете сообщение об ошибке:

TypeError: 'method' object is not iterable

Вы можете исправить это, используя:

>>> from nltk.corpus import wordnet as wn
>>> [item for sysnet in wn.synsets('car') for item in sysnet.lemma_names()]

Это выдаст:

>>> [
       'car', 'auto', 'automobile', 'machine', 'motorcar', 'car', 
       'railcar', 'railway_car', 'railroad_car', 'car', 'gondola', 
       'car', 'elevator_car', 'cable_car', 'car'
    ]

Чтобы найти синонимы, определения и примеры предложений, используя WordNet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтобы найти синонимы, определения и примеры предложений, используя WordNet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы