Извлечение значений из текста с помощью Python - PullRequest
0 голосов
/ 05 мая 2020

У меня есть длинный список текста из pandas фрейма данных. Однако я объясню, что хочу сделать, на одном примере. У меня есть два предопределенных списка. Эти два предопределенных списка можно использовать для извлечения нужных мне значений из текста:

ingredient_name_list = ['butter', 'butter oil', 'cheese', 'cheese food', 'cheese spread', 'cream', 'eggnog', 'sour dressing', 'milk', 'yogurt', 'cream substitute', 'dessert topping', 'sour cream', 'milk substitutes', 'milk shakes', 'whey', 'egg', 'egg substitute', 'cheese substitute', 'cheese sauce', 'parmesan cheese topping', 'reddi wip fat free whipped topping', 'cheese product', 'protein supplement', 'dulce de leche', 'ice cream', 'ice cream sandwich', 'ice cream cookie sandwich', 'ice cream cone', 'fat free ice cream', 'milk dessert bar', 'nutritional supplement for people with diabetes', 'ice cream bar', 'kefir', 'ice cream sundae cone', 'light ice cream', 'spices', 'basil', 'dill weed', 'mustard', 'salt', 'vinegar', 'thyme', 'vanilla extract', 'capers', 'horseradish', 'rosemary', 'peppermint', 'spearmint', 'seasoning mix', 'clif z bar', 'babyfood', 'zwieback', 'infant formula', 'toddler formula', 'toddler drink', 'child formula', 'fat', 'lard', 'salad dressing', 'sandwich spread', 'shortening', 'oil', 'margarine', 'vegetable oil', 'soybean', 'margarine-like', 'fish oil', 'animal fat', 'margarine-like spread with yogurt', 'margarine spread', 'margarine-like shortening', 'margarine-like spread', 'margarine-like vegetable-oil spread', 'dressing', 'mayonnaise', 'chicken', 'canada goose', 'duck', 'goose', 'guinea hen', 'pheasant', 'quail', 'squab', 'turkey', 'pate de foie gras', 'turkey and gravy', 'turkey breast', 'turkey thigh', 'turkey roast', 'turkey sticks', 'poultry', 'chicken patty', 'chicken breast tenders', 'ruffed grouse', 'emu', 'ostrich', 'turkey from whole', 'soup', "campbell's", 'sauce', 'gravy', 'split pea soup', 'split pea with ham soup', "campbell's chunky", 'smart soup', 'fish broth', 'potato soup', 'barbecue loaf', 'beerwurst', 'sausage', 'blood sausage', 'bockwurst', 'bologna', 'bratwurst', 'braunschweiger (a liver sausage)', 'cheesefurter', 'chicken spread', 'corned beef loaf', 'dutch brand loaf', 'frankfurter', 'ham', 'ham salad spread', 'headcheese', 'knackwurst', 'lebanon bologna', 'liver cheese', 'liver sausage', 'roast beef', 'luncheon meat', 'mortadella', 'olive loaf', 'pastrami', 'pate', 'peppered loaf', 'pepperoni', 'pickle and pimiento loaf', 'polish sausage', 'luxury loaf', "mother's loaf", 'picnic loaf', 'pork sausage', 'poultry salad sandwich spread', 'salami', 'thuringer', 'honey roll sausage', 'luncheon sausage', 'oscar mayer', 'bacon', 'liverwurst spread', 'roast beef spread', 'swisswurst', 'bacon and beef sticks', 'yachtwurst', 'chicken breast', 'kielbasa', 'macaroni and cheese loaf', 'scrapple', 'meatballs', 'cereals', 'cereals ready-to-eat', 'milk and cereal bar', 'rice and wheat cereal bar', 'incaparina', 'acerola', 'acerola juice', 'apples', 'apple juice', 'applesauce', 'apricots', 'apricot nectar', 'avocados', 'bananas', 'blackberries', 'blackberry juice', 'cherries', 'blueberries', 'boysenberries', 'breadfruit', 'carambola', 'carissa', 'cherimoya', 'crabapples', 'cranberries', 'cranberry sauce', 'cranberry-orange relish', 'currants', 'custard-apple', 'dates', 'elderberries', 'figs', 'fruit cocktail', 'fruit salad', 'gooseberries', 'goji berries', 'grapefruit', 'grapefruit juice', 'grapes', 'grape juice', 'groundcherries', 'guavas', 'guava sauce', 'jackfruit', 'java-plum', 'jujube', 'kiwifruit', 'kumquats', 'lemons', 'lemon juice', 'lemon juice from concentrate', 'lemon peel', 'limes', 'lime juice', 'litchis', 'loganberries', 'longans', 'loquats', 'mammy-apple', 'mangos', 'mangosteen', 'mango', 'melons', 'melon balls', 'mulberries', 'nectarines', 'oheloberries', 'olives', 'oranges', 'orange juice', 'orange peel', 'orange-grapefruit juice', 'tangerines', 'tangerine juice', 'papayas', 'papaya', 'papaya nectar', 'passion-fruit', 'passion-fruit juice', 'peaches', 'peach nectar', 'pears', 'pear nectar', 'persimmons', 'pineapple', 'pineapple juice', 'pitanga', 'plantains', 'plums', 'pomegranates', 'prickly pears', 'prunes', 'prune juice', 'pummelo', 'quinces', 'raisins', 'rambutan', 'raspberries', 'rhubarb', 'roselle', 'rose-apples', 'sapodilla', 'sapote', 'soursop', 'strawberries', 'sugar-apples', 'tamarinds', 'watermelon', 'maraschino cherries', 'feijoa', 'durian', 'prune puree', 'candied fruit', 'abiyuch', 'rowal', 'clementines', 'guanabana nectar', 'guava nectar', 'mango nectar', 'tamarind nectar', 'pomegranate juice', 'juice', 'nance', 'naranjilla (lulo) pulp', 'horned melon ', 'orange pineapple juice blend', 'fruit juice smoothie', 'cranberry juice blend', 'ruby red grapefruit juice blend (grapefruit', 'baobab powder', 'cherry juice', 'raspberry juice concentrate', 'pork', 'canadian bacon', 'hormel', 'hormel always tender', 'hormel canadian style bacon', 'pork loin', 'alfalfa seeds', 'amaranth leaves', 'arrowhead', 'artichokes', 'asparagus', 'balsam-pear (bitter gourd)', 'bamboo shoots', 'beans', 'lima beans', 'mung beans', 'beets', 'beet greens', 'broadbeans', 'broccoli', 'broccoli raab', 'brussels sprouts', 'burdock root', 'butterbur', 'cabbage', 'cardoon', 'carrots', 'cassava', 'cauliflower', 'celeriac', 'celery', 'celtuce', 'chard', 'chayote', 'chicory', 'chicory greens', 'chicory roots', 'chives', 'chrysanthemum', 'collards', 'coriander (cilantro) leaves', 'corn', 'corn with red and green peppers', 'cornsalad', 'cowpeas (blackeyes)', 'cowpeas', 'yardlong bean', 'cress', 'cucumber', 'dandelion greens', 'eggplant', 'edamame', 'endive', 'escarole', 'garlic', 'ginger root', 'gourd', 'drumstick leaves', 'hyacinth-beans', 'jerusalem-artichokes', "jew's ear", 'pepeao', 'jute', 'kale', 'kanpyo', 'mushrooms', 'kohlrabi', 'lambsquarters', 'leeks', 'lentils', 'lettuce', 'lotus root', 'mountain yam', 'mustard greens', 'mustard spinach', 'new zealand spinach', 'okra', 'onions', 'onion rings', 'parsley', 'parsnips', 'peas', 'peas and carrots', 'peas and onions', 'peppers', 'pigeonpeas', 'pokeberry shoots', 'potatoes', 'potato puffs', 'potato wedges', 'potato flour', 'potato salad', 'pumpkin flowers', 'pumpkin leaves', 'pumpkin', 'pumpkin pie mix', 'purslane', 'radishes', 'rutabagas', 'salsify', 'sauerkraut', 'seaweed', 'sesbania flower', 'soybeans', 'spinach', 'squash', 'succotash', 'water convolvulus', 'sweet potato leaves', 'sweet potato', 'taro', 'taro leaves', 'taro shoots', 'tomatoes', 'tomato juice', 'tomato products', 'tomato powder', 'tree fern', 'turnips', 'turnip greens', 'turnip greens and turnips', 'vegetable juice cocktail', 'vegetables', 'vinespinach', 'waterchestnuts', 'watercress', 'waxgourd', 'winged beans', 'winged bean leaves', 'winged bean tuber', 'yam', 'yambean (jicama)', 'borage', 'dock', 'eppaw', 'drumstick pods', 'shallots', 'carrot juice', 'corn pudding', 'spinach souffle', 'potato pancakes', 'radish seeds', 'carrot', 'arrowroot', 'chrysanthemum leaves', 'winged bean', 'ketchup', 'pickles', 'mushroom', 'pimento', 'pickle relish', 'catsup', 'radicchio', 'tomatillos', 'fennel', 'arugula', 'hearts of palm', 'nopales', 'lemon grass (citronella)', 'grape leaves', 'pepper', 'epazote', 'fireweed', 'malabar spinach', 'fungi', 'wasabi', 'yautia (tannier)', 'fiddlehead ferns', 'seeds', 'nuts', 'beef', 'alcoholic beverage', 'beverages', 'carbonated beverage', 'cocoa mix', 'cranberry juice cocktail', 'alcoholic beverages', 'lemonade', 'limeade', 'malt beverage', 'shake', 'strawberry-flavor beverage mix', 'water', 'whiskey sour mix', 'fish', 'crustaceans', 'mollusks', 'salmon nuggets', 'salmon', 'yokan', 'broadbeans (fava beans)', 'carob flour', 'chickpeas (garbanzo beans', 'chili with beans', 'hyacinth beans', 'lupins', 'mothbeans', 'noodles', 'mungo beans', 'peanuts', 'peanut butter', 'peanut flour', 'pigeon peas (red gram)', 'refried beans', 'meat extender', 'soy flour', 'soy meal', 'soymilk', 'soy protein ', 'tofu', 'okara', 'yardlong beans', 'hummus', 'falafel', 'veggie burgers or soyburgers', 'peanut spread', 'chickpea flour', 'mori-nu', 'frijoles rojos volteados (refried beans', 'tempeh', 'vitasoy usa', 'soymilk (all flavors)', 'silk plain', 'silk vanilla', 'silk chocolate', 'silk light plain', 'silk light vanilla', 'silk light chocolate', 'silk plus omega-3 dha', 'silk plus for bone health', 'silk plus fiber', 'silk unsweetened', 'silk very vanilla', 'silk nog', 'silk chai', 'silk mocha', 'silk coffee', 'silk vanilla soy yogurt', 'vitasoy usa organic nasoya', 'vitasoy usa nasoya', 'vitasoy usa organic nasoya sprouted', 'vitasoy usa azumaya', 'peanut butter with omega-3', 'soy protein concentrate', 'soy protein isolate', 'soy sauce made from soy and wheat (shoyu)', 'soy sauce', 'veal', 'lamb', 'game meat', 'bison', 'game meat ', 'bagels', 'biscuits', 'bread', 'cake', 'cookies', 'puff pastry', 'crackers', 'cracker', 'cream puff shell', 'croissants', 'croutons', 'danish pastry', 'doughnuts', 'muffins', 'french toast', 'hush puppies', 'ice cream cones', 'pancakes plain', 'pancakes', 'pie', 'pie crust', 'phyllo dough', 'popovers', 'rolls', 'strudel', 'sweet rolls', 'taco shells', 'toaster pastries', 'tortillas', 'waffles', 'wonton wrappers ', 'leavening agents', 'english muffins', 'tart', 'archway home style cookies', 'artificial blueberry muffin mix', 'kraft', 'george weston bakeries', 'keebler', 'continental mills', 'mckee baking', 'martha white foods', 'mission foods', 'nabisco', 'pillsbury', 'pillsbury grands', 'pillsbury golden layer buttermilk biscuits', 'kraft foods', 'heinz', 'interstate brands corp', 'waffle', 'muffin', 'tostada shells', 'keikitos (muffins)', 'pan dulce', 'pastry', 'garlic bread', 'cinnamon buns', 'cream puff', 'focaccia', 'schiff', 'candies', 'snacks', 'fruit syrup', 'topping', 'syrup', 'baking chocolate', 'ice creams', 'desserts', 'sherbet', 'syrups', 'puddings', 'chocolate-flavored hazelnut spread~^~chocolate-flavored hazelnut sprd~^^^~y~^^0^^6.25^^^', 'toppings', 'chewing gum~^~chewing gum~^~bubble gum~^^~y~^^0^^6.25^1.82^8.37^3.70', 'cocoa', 'egg custards', 'gelatin desserts', 'gelatins', 'flan', 'rennin', 'frozen novelties', 'frostings', 'frozen yogurts', 'fruit butters', 'honey', 'jams and preserves', 'jellies', 'marmalade', 'molasses', 'pectin', 'pie fillings', 'pudding', 'sugars', 'sweeteners', 'snack', 'tortilla chips', 'cheese puffs and twists', 'popcorn', 'potato chips', 'chocolate', 'sugar', 'sweetener', 'jams', 'amaranth grain', 'arrowroot flour', 'barley', 'buckwheat', 'buckwheat groats', 'buckwheat flour', 'bulgur', 'corn grain', 'corn bran', 'corn flour', 'cornmeal', 'cornstarch', 'couscous', 'hominy', 'millet', 'oat bran', 'quinoa', 'rice', 'oats', 'rice bran', 'rice flour', 'rye grain', 'rye flour', 'semolina', 'sorghum grain', 'tapioca', 'triticale', 'triticale flour', 'wheat', 'wheat bran', 'wheat germ', 'wheat flour', 'wild rice', 'pasta', 'macaroni', 'spaghetti', 'wheat flours', 'barley flour or meal', 'barley malt flour', 'oat flour', 'rice noodles', 'spelt', 'teff', 'millet flour', 'sorghum flour', 'fast foods', 'burger king', 'fast food', 'chick-fil-a', 'school lunch', 'subway', 'pizza', "mcdonald's", "wendy's", 'taco bell', 'bacon ranch salad with crispy chicken', 'popeyes', 'kfc', 'yogurt parfait', 'digiorno pizza', "wend'ys", 'pizza hut', "arby's", 'macaroni and cheese', 'spaghetti with meat sauce', 'beef macaroni with tomato sauce', 'pasta with sliced franks in tomato sauce', 'turkey pot pie', 'beef pot pie', 'hot pockets', "hot pockets ham 'n cheese stuffed sandwich", 'ravioli', 'tortellini', 'chili con carne with beans', 'beef stew', 'chicken pot pie', 'lasagna', 'chili', 'pasta with tomato sauce', 'lasagna with meat & sauce', 'burrito', 'egg rolls', 'rice bowl with chicken', 'macaroni and cheese dinner with dry sauce mix', 'lean pockets', 'potato salad with egg~^~potato salad w/ egg~^^^~y~^^0^^^^^', 'pulled pork in barbecue sauce~^~pulled pork in barbecue sau~^^^^^0^^^^^', 'corn dogs', 'lasagna with meat sauce', 'chicken tenders', 'rice-a-roni', 'rice and vermicelli mix', 'beef composite', 'formulated bar', 'pretzels', 'rice crackers', 'dip', 'cookie', "andrea's", 'crunchmaster', 'glutino', "mary's gone crackers", 'pepperidge farm', "rudi's", 'sage valley', 'schar', "udi's", "van's", 'sweet potatoes', 'sweet potato puffs', 'vegetable juice', 'taquitos', 'pasta mix', 'yellow rice with seasoning', 'pizza rolls', 'potsticker or wonton', 'macaroni or noodles with cheese', 'turnover', 'spanish rice mix', 'rice mix', 'dumpling', 'salisbury steak with gravy', 'hungry man', 'banquet', 'jimmy dean', 'agutuk', 'ascidians ', 'bear', 'whale', 'caribou', 'stew/soup', 'chiton', 'cloudberries', 'cockles', 'cranberry', 'huckleberries', 'stew', 'moose', 'mashu roots', 'mouse nuts', 'octopus', 'seal', 'oopah (tunicate)', 'owl', 'sea cucumber', 'sourdock', 'squirrel', 'tea', 'walrus', 'deer (venison)', 'willow', 'mush', 'melon', 'chilchen ', 'mutton', 'frybread', 'tortilla', 'tamales', 'salmonberries', 'elk', 'buffalo', 'chokecherries', 'steelhead trout', 'acorn stew ', 'smelt', 'corned beef and potatoes in tortilla', 'tennis bread', 'agave', 'cattail', 'prairie turnips', 'rose hips', 'stinging nettles', 'pinon nuts', 'sea lion', 'wocas', 'hazelnuts', 'piki bread', "applebee's", "t.g.i. friday's", 'restaurant', 'cracker barrel', "denny's", 'olive garden', "carrabba's italian grill", 'on the border', 'creamy dressing', 'imitation cheese', 'milk dessert', 'whipped topping', 'granola bar', 'vegetable oil-butter spread', 'pork sausage rice links', 'papad', 'rice cake', 'gums', 'chewing gum', 'fluid replacement', 'breakfast bars', 'vermicelli', 'luncheon slices', 'vegetarian fillets', 'vegetarian meatloaf or patties', 'beverage', 'bacon bits', 'butter replacement', 'tomato sauce', 'whipped cream substitute', 'eggs', 'dove', 'tomato and vegetable juice', 'cranberry juice', 'yeast extract spread', 'tofu yogurt', 'jellyfish', 'breakfast bar', 'mayonnaise dressing', 'vital wheat gluten', 'frog legs', 'turtle', 'daikon', 'jicama', 'beatgreens', 'bokchoy', 'collard greens', 'microgreens', 'almonds', 'cashews', 'pecans', 'walnuts', 'blueberry', 'strawberry', 'barberries', 'raspberry', 'blackberry', 'boysenberry', 'lingonberries', 'lingonberry', 'elderberry', 'cloudberry', 'dewberry', 'goji berry', 'gooseberry']
quantity_list = ['cup','cups','teaspoon','teaspoons','tablespoon','tablespoons','lb','lbs']

Ниже приведен текст из этого фрейма данных одной строки:

 1 1/2  lbs    ground beef (a mixture of 1 pound ground beef and 1/2 pound ground pork will work well also)
1   large    egg
1/2  cup   grated parmesan cheese
1/3  cup    breadcrumbs (or use enough to hold the meat together (no dry breadcrumbs? just soak 3 slices of bread in the 1/3 )
1 -2   tablespoon   fresh minced garlic (or use 1 teaspoon garlic powder or to taste)
1 -2   teaspoon    salt (or to taste
1   teaspoon    fresh ground black pepper
1/3  cup    milk (can use up to 1/2 cup milk)
1/2  teaspoon    dried oregano (optional
1/4  cup   chopped fresh parsley (or 2 tablespoons dried parsley)

I получил указанный выше текст, используя следующий код:

    import re
    text_value = df['ingredients']
    for i in text_value[0:1]:
        each_quantity_list = []
        each_unit_list = []
        each_ingradient_list = []
        my_list = i.split(',')
        rx = re.compile(r'\d+(?:/\d+)?')
        filtered = [item for item in my_list if rx.match(item)]
        for j in filtered:
            print (j)
            // Do stuff here

Как я могу извлечь количество, единицу (чашка, фунт, и т. д. c.) и название ингредиента из текста, чтобы у меня было следующее:

each_quantity_list  = ['1 1/2','1','1/2','1/3','1-2','1-2','1','1/3','1/2','1/4']
each_unit_list = ['lbs','cup','cup','cup','tablespoon','teaspoon','teaspoon','cup','teaspoon','cup']
each_ingradient_list = ['beef','egg','parmesan cheese','breadcrumbs','garlic','salt','black pepper','milk','oregano','parsley']

Для ясности ниже приведен полный код, который я использовал. Но проблема этого кода в том, что он не распознает количество, когда оно равно 1 1/2, а также иногда не получает количество, такое как чашка, чашки и т. Д. c:

for i in range(len(df)):
try:
    ingredient_list = []
    qunait_list = []
    value = df['ingredients'][i].split(',')
    rx = re.compile(r'\d+(?:/\d+)?')
    filtered = [item for item in value if rx.match(item)]
    for j in filtered:
        #print (j)
        each_ingredient = j.split()
        #print (each_ingredient)\\n
        for k in ingredient_name_list:
            if k in each_ingredient and each_ingredient[1] in quantity_list:
                quantity = each_ingredient[0]
                #print (quantity)
                #print (each_ingredient[1])
                #print (k)
                ingredient_list.append(k)
                qunait_list.append(str(quantity)+' '+str(each_ingredient[1]))
            elif k in each_ingredient and each_ingredient[1] not in quantity_list:
                int_quantity = each_ingredient[0]
                #print (int_quantity)\\n#print (each_ingredient[1])\\n#print (k)\\n
                ingredient_list.append(k)
                qunait_list.append(' '+str(quantity))
                #print (\\'----------------------------------------------------\\')\\n
    id_list.append(df['id'][i])
    #print(\"id\"+str(df[\\'id\\'][i]))\\n
    #print (\\'----------------------------------------------------\\')\\n
    ingre_list.append(ingredient_list)
    quan_list.append(qunait_list)
except:
    pass

Я хочу сделать это для всех. Любая помощь действительно приветствуется.

Ответы [ 4 ]

1 голос
/ 08 мая 2020

Анализировать данные рецепта сложно, и если вы используете регулярные выражения, вы никогда не получите его правильно. Используйте статистическую модель. New York Times использовала CRF в 2015 году и написала об этом статью , а выпустила код .

1 голос
/ 05 мая 2020

Решил вот так:

    final_quantity_unit_list = []
#unit_list = []
ingredient_list = []
id_list = []
for i in range(len(df[0:10])):
    try:
        each_quantity_unit_list = []
        each_ingradient_list = []
        my_list = df['ingredients'][i].split(',')        

        rx = re.compile(r'\d+(?:/\d+)?')
        filtered = [item for item in my_list if rx.match(item)]
        for j in filtered:
            single_list= j.split()
            #print (single_list)        
            for k in lower_list:
                    if k in single_list and single_list[1] in quantity_list:
                        quantity = single_list[0]
                        print (quantity)
                        print (single_list[1])
                        print (k)
                    elif k in single_list and single_list[1] not in quantity_list:
                        try: 
                            float(single_list[1])
                            int_quantity = str(single_list[0])+' '+str(single_list[1])                   
                            print (int_quantity)                    
                            print (k)
                        except:
                            int_quantity = str(single_list[0])              
                            print (int_quantity)                    
                            print (k)


    except:
        pass
1 голос
/ 05 мая 2020
  1. читать текст как объект, итерация по объекту строка за строкой.
  2. каждый раз, обрабатывая строку как x, разделяя строку x пробелом или разделителем, тогда у u есть список y . x - линия, y - слова. По регулярному выражению y делит y на число и строку
  3. каждое слово в y, которое соответствует или содержит / d или [/ -], (если предложение помещает его в количество)
  4. каждое слово в y который имеет / содержит числа, за которыми следует единица, (если предложение помещает его в единицу)
  5. каждое слово в y, за которым следует единица перед числами, (если предложение помещает его в ингредиент)

А теперь займитесь кодированием.
Удачного кодирования!

0 голосов
/ 05 мая 2020

В этом примере у вас есть j, который представляет собой блок текста, который может быть разделен строкой. Если вы установите, скажем, некоторые переменные ингредиенты в j.split ('\ n'), он предоставит вам список каждого ингредиента со всеми деталями.

Теперь, просто l oop через это, и разделите каждый ингредиент на несколько пробелов (потому что кажется, что каждая часть последовательно разделена несколькими пробелами). Это даст вам каждую часть отдельно. Теперь просто отформатируйте каждую часть по своему вкусу и добавьте их в нужный список.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...