Классификация текста с Python или другой программой - PullRequest
0 голосов
/ 25 января 2020

Я ищу Программу, которая поможет мне с классификацией текста или чем-то в этом роде, или я должен написать ее сам. Небольшой пример для моей проблемы: дерево 12м зеленое дерево синее 15м дерево красное 19м

Таким образом, программа должна помочь мне классифицировать, отсортировать и изменить текст, поэтому дерево 12м зеленого цвета должно быть: tr 12m гр (поэтому я нажимаю это в программу) Так что для следующего Tree Blue 15M программа автоматически знает дерево заказов 15m Blue, а также знает сокращение TR 15M BL и т. д. У меня есть много данных, поэтому я мог бы использовать TextMining Software или Keras или около того на? Так что, если есть программа, которая делает это, чем я могу это использовать, или мне приходится самому кодировать. Но проблема в том, что программа должна выучить правила для классификации сама по себе, а не так жестко, как я это сделал.

Спасибо большое!

Я попробовал немного

import spacy
import csv 
import io
counter = 0   # Benötigte Zählvariable für die Schleife
max_entries = 0    # maximale Anzahl der Einträge in der Liste
list_with_token=[] 
df=pd.read_csv("./test.csv")   # Panda Aufruf der csv Datei - Benötigt um die Anzahl der Einträge zu bestimmen
#df=pd.read_csv("./test.csv")   #P anda Aufruf der csv Datei - Benötigt um die Anzahl der Einträge zu bestimmen
with io.open('Deutsche Bezeichnung der Stücke.csv', encoding='utf-8') as f:  # encoding utf-8 um Umlaute zuzulassen
#with io.open('test.csv', encoding='utf-8') as f:  # encoding utf-8 um Umlaute zuzulassen
  reader = csv.reader(f)
  deutsche_bezeichnungen = list(reader)
max_entries = len(df)+1 # Einträge der Liste  +1 weil Spalenbezeichung mitgezählt wird und Zählung bei Null beginnt
 # In dieer Schleife wird die Liste durchgegangen und den einzelnen Wörtern die Wortart zugeornet 
while counter < max_entries:    
    list_entry= deutsche_bezeichnungen[counter]
    print(list_entry)
    list_entry_to_string = ''.join(list_entry)
    analyzed_list_entry = list_entry_to_string
    nlp = spacy.load('de_core_news_sm')
    analyzing_words = nlp(analyzed_list_entry)
    for token in analyzing_words:
      print(token, token.pos_)
      if token.pos_ == "NOUN" or token.pos_ == "PROPN":
          print(token.text)
          text_für_schleife= token.text
          print(text_für_schleife)
          text_zum_übergeben= text_für_schleife
          vowels = set('aAeEiIoOuU')
          txt_without_vowels = ''.join(char for char in text_zum_übergeben if char not in vowels)
          print( txt_without_vowels)         
counter +=1


...