AttributeError: у объекта «builtin_function_or_method» нет атрибута «is_unique» в наборе данных - PullRequest
0 голосов
/ 25 апреля 2020

Мой код состоит в том, чтобы построить модель Word2Ve c на DataBricks, используя python и spark SQL. Я получил этот код для работы с другим набором данных, но когда я попробовал его на другом наборе данных, я получаю сообщение об ошибке. У меня такое ощущение, что это не сработало с другим набором данных, просто я не получил ошибку. Моя цель - построить модель.

import gensim
import tensorflow as tf
import pandas as pd
import sqlalchemy

print('gensim version: \t%s' % gensim.__version__)
print('TensorFlow version: \t%s' % tf.__version__)
print('Pandas version: \t%s' % pd.__version__)
print('SQLalchemy version: \t%s' % sqlalchemy.__version__)

df = spark.sql("select WORK.CASE_SMRY from somePlace AS CASE_EVENTS_FLAT inner join edl_views.casemanagement AS Case_CMS ON (EVENTS_FLAT.CASE_ID = CMS.CASE_ID) where DTAC_CMS.PRD_PTRM_NM = 'A&T HGT' AND DTAC_CMS.LANG_CD = 'en_US' ")

data_file_name = "df"
raw_df = df.toPandas( ) #convert spark.sql to a pandas data frame
print("Data loaded")


raw_corpus = raw_df.join((str(raw_df['CASE_SMRY']+" ")))  # PROBLEM AREA
print("Raw Corpus contains {0:,} characters".format(len(raw_corpus)))```

#Code is incomplete, but true up to the problem area. I know my code is crude and there are probably better ways to get a DB table into one long string but this was what I found on the net that worked...well it did on another dataset.

#Whole Code: https://github.com/WalczRobert/Recipes/blob/master/Databricks_Gensim_Word2Vec.ipynb
...