Я ищу Программу, которая поможет мне с классификацией текста или чем-то в этом роде, или я должен написать ее сам. Небольшой пример для моей проблемы: дерево 12м зеленое дерево синее 15м дерево красное 19м
Таким образом, программа должна помочь мне классифицировать, отсортировать и изменить текст, поэтому дерево 12м зеленого цвета должно быть: tr 12m гр (поэтому я нажимаю это в программу) Так что для следующего Tree Blue 15M программа автоматически знает дерево заказов 15m Blue, а также знает сокращение TR 15M BL и т. д. У меня есть много данных, поэтому я мог бы использовать TextMining Software или Keras или около того на? Так что, если есть программа, которая делает это, чем я могу это использовать, или мне приходится самому кодировать. Но проблема в том, что программа должна выучить правила для классификации сама по себе, а не так жестко, как я это сделал.
Спасибо большое!
Я попробовал немного
import spacy
import csv
import io
counter = 0 # Benötigte Zählvariable für die Schleife
max_entries = 0 # maximale Anzahl der Einträge in der Liste
list_with_token=[]
df=pd.read_csv("./test.csv") # Panda Aufruf der csv Datei - Benötigt um die Anzahl der Einträge zu bestimmen
#df=pd.read_csv("./test.csv") #P anda Aufruf der csv Datei - Benötigt um die Anzahl der Einträge zu bestimmen
with io.open('Deutsche Bezeichnung der Stücke.csv', encoding='utf-8') as f: # encoding utf-8 um Umlaute zuzulassen
#with io.open('test.csv', encoding='utf-8') as f: # encoding utf-8 um Umlaute zuzulassen
reader = csv.reader(f)
deutsche_bezeichnungen = list(reader)
max_entries = len(df)+1 # Einträge der Liste +1 weil Spalenbezeichung mitgezählt wird und Zählung bei Null beginnt
# In dieer Schleife wird die Liste durchgegangen und den einzelnen Wörtern die Wortart zugeornet
while counter < max_entries:
list_entry= deutsche_bezeichnungen[counter]
print(list_entry)
list_entry_to_string = ''.join(list_entry)
analyzed_list_entry = list_entry_to_string
nlp = spacy.load('de_core_news_sm')
analyzing_words = nlp(analyzed_list_entry)
for token in analyzing_words:
print(token, token.pos_)
if token.pos_ == "NOUN" or token.pos_ == "PROPN":
print(token.text)
text_für_schleife= token.text
print(text_für_schleife)
text_zum_übergeben= text_für_schleife
vowels = set('aAeEiIoOuU')
txt_without_vowels = ''.join(char for char in text_zum_übergeben if char not in vowels)
print( txt_without_vowels)
counter +=1