объединить фрагменты слова, разделенные в разных списках - PullRequest
0 голосов
/ 14 марта 2019

У меня есть два списка слов / строк: x & y.Другая часть некоторых слов в x находится в y, и я хочу объединить их. Например, я хочу объединить слово «eng» из списка x с другой его частью «ments» из списка y или «operation» из списка xс 'nelle' из списка y.Мне также нужно проверить в словаре, существует ли каждое слово / токен из списка x в dic, а составное слово существует в dic.Если это так, добавьте их в другой список (текст).Код, который я безуспешно пробовал:

import nltk
from nltk.tokenize import word_tokenize
x=['les', 'engage', 'président', 'de', 
'la', 'république', 'sont', 'aussi', 
'ceux', 'des', 'dirigeants', 'de', 'la', 
'société', 'ferroviaire', ',', 'a-t-il', 
'soutenu', 'de', 'élus', 'du', 'réunis', 
'à', '’', 'le', 'président', 'de', 'la', 
'république', ',', '(', 'à', 'droite', 
')', ',', 'aux', 'côtés', 'du', 'patron', 
'de', 'la', ',', 'guillaume', 'à', 'la', 
'gare', 'à', 'paris', ',', 'le', 
'juillet', 'der', '’', 'irrita', ',', 
'par', 'fois', ',', '’', 'usa', 'la', 
'face', 'aux', 'trains', 'supprimés', 
'aux', 'dessertes', 'abandonnées', 
'semble', 'avoir', 'aussi', 'saisi', 'le', 
'président', 'de', 'la', 'république', 
'.', 'devant', 'des', 'élus', 'du', ',', 
'réunis', 'mardi', 'février', 'à', '’', 
'le', 'cadre', 'du', 'grand', 'débat', 
',', 'a', 'eu', 'des', 'mots', 'très', 
'durs', 'contre', 'la', ',', 'qui', 'a', 
'fermé', 'la', 'ligne', '-', 'décembre', 
',', 'alors', 'que', 'le', 'chef', 'de', 
'’', '’', 'était', 'engagé', ',', 
'durant', 'un', 'déplacement', 'dans', 
'les', 'tué', 'en', 'avril', ',', 'à', 
'ce', '’', 'elle', 'reste', 'opération']


y=['ments', 'prési', 'républi', 'vant', 
'elysée', 'emmanuel', 'macron', 'cô', 
'pepy', 'montparnasse', 'geoffroy', 
'hasselt', '/', 'afp', 'tion', 'empare', 
'gers', 'més', 'elysée', 'emmanuel', 
'macron', 'epinal', 'etat', 'dépla', 
'cement', 'vosges', 'effec', 'nelle']

text=[ ]

with open ('Fr-dictionary.txt') as d:
dic = word_tokenize(d.read().lower())

for i in x:
  if i in dic:
    text.append(i)
  else:
    for j in y:
      concatenated = i + j
      if concatenated in dic:
        text.append(concatenated)

print(text)

Что здесь не так?

1 Ответ

0 голосов
/ 14 марта 2019

Хорошо, мне удается заставить ваш код работать.

Сначала я должен добавить nltk.download('punkt') сразу после import nltk

Затем я прокомментировал свое решение, но не стесняюсь спрашивать, если что-тоне ясно:

cat_x_y = []
text = []

with open ('Fr-dictionary.txt') as d:
    dic = word_tokenize(d.read().lower())

#for each word in x check if they are in the dictonary 
for word in x:
    if word in dic:
        text.append(word)
#same for y
for word in y:
    if word in dic:
        text.append(word)

#for each word in x I want to add y and put it in cat_x_y
for i in range(len(x)):
    for word in y:
        cat_x_y.append(x[i]+word)

#for each word in y I want to add x and put it in cat_x_y
for j in range(len(y)):
    for word in x:
        cat_x_y.append(y[j]+word)

#remove duplicate in the cat_x_y:
cat_x_y = list(dict.fromkeys(cat_x_y))

#for each word in cat_x_y add the to text if they are in the dictionary
for word in cat_x_y:
    if word in dic:
        text.append(word)

#remove duplicate from text
text = list(dict.fromkeys(text))
print(text)

Я предполагаю, что вы хотите проверить слово из x и слово из y.Но также попробуйте добавить x + y и y + x

Вот слова, которые я получаю, когда выполняю код: ['les', 'engage', 'président', 'de', 'la', 'république', 'sont', 'aussi', 'ceux', 'des', 'dirigeants', 'société', 'ferroviaire', 'a-t-il', 'soutenu', 'élus', 'du', 'réunis', 'à', 'le', 'droite', 'aux', 'côtés', 'patron', 'guillaume', 'gare', 'paris', 'juillet', 'der', 'irrita', 'par', 'fois', 'usa', 'face', 'trains', 'supprimés', 'dessertes', 'abandonnées', 'semble', 'avoir', 'saisi', 'devant', 'mardi', 'février', 'cadre', 'grand', 'débat', 'a', 'eu', 'mots', 'très', 'durs', 'contre', 'qui', 'fermé', 'ligne', 'décembre', 'alors', 'que', 'chef', 'était', 'engagé', 'durant', 'un', 'déplacement', 'dans', 'tué', 'en', 'avril', 'ce', 'elle', 'reste', 'opération', 'engagements', 'lavant', 'lamés', 'lacement', 'levant', 'irritation', 'usagers', 'avant', 'quenelle', 'cenelle', 'opérationnelle', 'préside', 'présides', 'présider', 'vantaux', 'vanta', 'mésusa', 'déplace', 'effectué']

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...