Мой код состоит в том, чтобы построить модель Word2Ve c на DataBricks, используя python и spark SQL. Я получил этот код для работы с другим набором данных, но когда я попробовал его на другом наборе данных, я получаю сообщение об ошибке. У меня такое ощущение, что это не сработало с другим набором данных, просто я не получил ошибку. Моя цель - построить модель.
import gensim
import tensorflow as tf
import pandas as pd
import sqlalchemy
print('gensim version: \t%s' % gensim.__version__)
print('TensorFlow version: \t%s' % tf.__version__)
print('Pandas version: \t%s' % pd.__version__)
print('SQLalchemy version: \t%s' % sqlalchemy.__version__)
df = spark.sql("select WORK.CASE_SMRY from somePlace AS CASE_EVENTS_FLAT inner join edl_views.casemanagement AS Case_CMS ON (EVENTS_FLAT.CASE_ID = CMS.CASE_ID) where DTAC_CMS.PRD_PTRM_NM = 'A&T HGT' AND DTAC_CMS.LANG_CD = 'en_US' ")
data_file_name = "df"
raw_df = df.toPandas( ) #convert spark.sql to a pandas data frame
print("Data loaded")
raw_corpus = raw_df.join((str(raw_df['CASE_SMRY']+" "))) # PROBLEM AREA
print("Raw Corpus contains {0:,} characters".format(len(raw_corpus)))```
#Code is incomplete, but true up to the problem area. I know my code is crude and there are probably better ways to get a DB table into one long string but this was what I found on the net that worked...well it did on another dataset.
#Whole Code: https://github.com/WalczRobert/Recipes/blob/master/Databricks_Gensim_Word2Vec.ipynb