Когда я применил (NLTK) стоп-слова к фрейму данных, это показывает ошибку? - PullRequest
0 голосов
/ 26 ноября 2018
  Reviews                                               Label
0   Bromwell High is a cartoon comedy. It ran at t...   Positive
1   Homelessness (or Houselessness as George Carli...   Positive
2   Brilliant over-acting by Lesley Ann Warren. Be...   Positive

Выше приведен мой фрейм данных со столбцами: Отзывы и метка Когда я выполнил приведенный ниже код: `

nltk.download('stopwords') This is used to update stop words.
from nltk.corpus import stopwords
stop = stopwords.words('english')
final_without_stopwords = final[['Reviews','Label']].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)])).str.replace('[^\w\s]','')
print(final_without_stopwords)`

Результат:

KeyError                                  Traceback (most recent call last)
~\Anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance)
   3077             try:
-> 3078                 return self._engine.get_loc(key)
   3079             except KeyError:

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()

KeyError: ('Reviews', 'Label')

During handling of the above exception, another exception occurred:

KeyError                                  Traceback (most recent call last)
<ipython-input-52-cb4ca290db84> in <module>()
      5 #final['Reviews'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_words)]))
      6 
----> 7 final_without_stopwords = final['Reviews','Label'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)])).str.replace('[^\w\s]','')
      8 print(final_without_stopwords)

~\Anaconda3\lib\site-packages\pandas\core\frame.py in __getitem__(self, key)
   2686             return self._getitem_multilevel(key)
   2687         else:
-> 2688             return self._getitem_column(key)
   2689 
   2690     def _getitem_column(self, key):

~\Anaconda3\lib\site-packages\pandas\core\frame.py in _getitem_column(self, key)
   2693         # get column
   2694         if self.columns.is_unique:
-> 2695             return self._get_item_cache(key)
   2696 
   2697         # duplicate columns & possible reduce dimensionality

~\Anaconda3\lib\site-packages\pandas\core\generic.py in _get_item_cache(self, item)
   2487         res = cache.get(item)
   2488         if res is None:
-> 2489             values = self._data.get(item)
   2490             res = self._box_item_values(item, values)
   2491             cache[item] = res

~\Anaconda3\lib\site-packages\pandas\core\internals.py in get(self, item, fastpath)
   4113 
   4114             if not isna(item):
-> 4115                 loc = self.items.get_loc(item)
   4116             else:
   4117                 indexer = np.arange(len(self.items))[isna(self.items)]

~\Anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance)
   3078                 return self._engine.get_loc(key)
   3079             except KeyError:
-> 3080                 return self._engine.get_loc(self._maybe_cast_indexer(key))
   3081 
   3082         indexer = self.get_indexer([key], method=method, tolerance=tolerance)

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()

KeyError: ('Reviews', 'Label')
    enter code here

**

На самом деле я хочу применить стоп-слова к моему фрейму данных, который имеет только два столбца.Когда я выполнял этот код с одним столбцом (Обзоры), он работал хорошо, но когда я выполнял его с двумя столбцами (Обзоры и ярлыки), он показывает некоторую ошибку.Любые предложения, как обрабатывать этот код с обоими столбцами.

**

1 Ответ

0 голосов
/ 27 ноября 2018

Если вы хотите применить функцию поэлементно к фрейму данных, используйте applymap:

Упрощенный пример:

import pandas as pd

stop = set(['a','the','i','is'])
df = pd.DataFrame( {'sentence1':['i am a boy','i am a girl'],
                    'sentence2':['Bromwell High is a cartoon comedy','i am a girl']})

df[['sentence1','sentence2']].applymap(lambda x: ' '.join(i for i in x.split() if i not in stop))


   sentence1    sentence2
0   am boy       Bromwell High cartoon comedy
1   am girl      am girl

Если вы хотите переназначить значения без стоп-слов в вашфрейм данных, используйте:

df[['sentence1','sentence2']] = df[['sentence1','sentence2']].applymap(lambda x: ' '.join(i for i in x.split() if i not in stop))
...