NLTK путь_схожесть дает значение ValueError - PullRequest
0 голосов
/ 24 апреля 2020

В настоящее время я выполняю назначение Coursera с помощью NLTK, чтобы найти Path_sogeneity между двумя документами, но застрял.

import numpy as np
import nltk
from nltk.corpus import wordnet as wn
import pandas as pd

nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
nltk.download('punkt')

def convert_tag(tag):
    """Convert the tag given by nltk.pos_tag to the tag used by wordnet.synsets"""

    tag_dict = {'N': 'n', 'J': 'a', 'R': 'r', 'V': 'v'}
    try:
        return tag_dict[tag[0]]
    except KeyError:
        return None


def doc_to_synsets(doc):
    """
    Returns a list of synsets in document.

    Tokenizes and tags the words in the document doc.
    Then finds the first synset for each word/tag combination.
    If a synset is not found for that combination it is skipped.

    Args:
        doc: string to be converted

    Returns:
        list of synsets

    Example:
        doc_to_synsets('Fish are nvqjp friends.')
        Out: [Synset('fish.n.01'), Synset('be.v.01'), Synset('friend.n.01')]
    """
    tokens=nltk.word_tokenize(doc)
    tokens=nltk.pos_tag(syn)

    updated_pos=[convert_tag(x[1]) for x in tokens]

    tokens=[(tokens[x][0],updated_pos[x]) for x in range(len(tokens))]



    ds=[wn.synsets(tokens[x][0],pos=tokens[x][1]) for x in range(len(tokens))]
    ds1=[]
    for x in range(len(tokens)):
        try:
            ds1.append(ds[x][0])
        except:
            continue
    return ds1
def similarity_score(s1, s2):
    """
    Calculate the normalized similarity score of s1 onto s2

    For each synset in s1, finds the synset in s2 with the largest similarity value.
    Sum of all of the largest similarity values and normalize this value by dividing it by the
    number of largest similarity values found.

    Args:
        s1, s2: list of synsets from doc_to_synsets

    Returns:
        normalized similarity score of s1 onto s2

    Example:
        synsets1 = doc_to_synsets('I like cats')
        synsets2 = doc_to_synsets('I like dogs')
        similarity_score(synsets1, synsets2)
        Out: 0.73333333333333339
    """
    maxscore=[]
    for x in s1:
        dis=[]
        for y in s2:
            dis.append(x.path_similarity(y))
            dis=[z for z in dis if z!=None]
        maxscore.append(max(dis))
    return sum(maxscore)/len(maxscore)


def document_path_similarity(doc1,doc2):
    """Finds the symmetrical similarity between doc1 and doc2"""

    synsets1 = doc_to_synsets(doc1)
    synsets2 = doc_to_synsets(doc2)

    return (similarity_score(synsets1, synsets2)+similarity_score(synsets2, synsets1))/ 2

 #This is a test Function to check wether the above funtion is correct or not
def test_document_path_similarity():
    doc1 = 'This is a function to test document_path_similarity.'
    doc2 = 'Use this function to see if your code in doc_to_synsets \
    and similarity_score is correct!'
    return document_path_similarity(doc1, doc2)

Моя проблема в том, что эта тестовая функция вместо возврата значения с плавающей запятой и дает ValueError:

ValueError                                Traceback (most recent call last)
<ipython-input-61-6c20d7dcffc6> in <module>()
----> 1 test_document_path_similarity()

<ipython-input-60-9639d05f12da> in test_document_path_similarity()
      2     doc1 = 'This is a function to test document_path_similarity.'
      3     doc2 = 'Use this function to see if your code in doc_to_synsets     and similarity_score is correct!'
----> 4     return document_path_similarity(doc1, doc2)

<ipython-input-59-849dd19f38dc> in document_path_similarity(doc1, doc2)
     89     synsets2 = doc_to_synsets(doc2)
     90 
---> 91     return (similarity_score(synsets1, synsets2)+similarity_score(synsets2, synsets1))/ 2

<ipython-input-59-849dd19f38dc> in similarity_score(s1, s2)
     79             dis.append(x.path_similarity(y))
     80             dis=[z for z in dis if z!=None]
---> 81         maxscore.append(max(dis))
     82     return sum(maxscore)/len(maxscore)
     83 

ValueError: max() arg is an empty sequence

Это в основном потому, что сходство путей между synsets2 [-1] и каждым синтаксисом synsets1 дает значение None. Но так не должно быть в соответствии с инструкциями, я пытался так много времени, но не мог понять, как этого избежать и получить значение с плавающей запятой.

Поскольку инструкторам может потребоваться несколько дней, чтобы ответить, я пришел сюда за помощью, пожалуйста, посмотрите на это, если вы могли. редактировать: это synsets2 и synsets1.

synsets2=[Synset('use.v.01'),
  Synset('function.n.01'),
  Synset('see.v.01'),
  Synset('code.n.01'),
  Synset('inch.n.01'),
  Synset('be.v.01'),
  Synset('correct.a.01')],


synsets1=[Synset('be.v.01'),
  Synset('angstrom.n.01'),
  Synset('function.n.01'),
  Synset('test.v.01')]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...