Область видимости ржавчины в структурах - PullRequest
2 голосов
/ 20 апреля 2020

Итак, я работаю над переносом строкового токенизатора, который я написал в Python, на Rust, и я столкнулся с проблемой, которую, похоже, не могу решить с временами жизни и структурами.

Итак, процесс в основном:

  1. Получить массив файлов
  2. Преобразовать каждый файл в Vec<String> токенов
  3. Пользователь a Counter и Unicase для получения количества отдельных экземпляров токенов из каждого vec
  4. Сохранение этого количества в структуре вместе с некоторыми другими данными
  5. (Future) выполняет некоторую обработку на множестве структур для накопления общих данных вдоль данных для каждого файла
struct Corpus<'a> {
    words: Counter<UniCase<&'a String>>,
    parts: Vec<CorpusPart<'a>>
}

pub struct CorpusPart<'a> {
    percent_of_total: f32,
    word_count: usize,
    words: Counter<UniCase<&'a String>>
}

fn process_file(entry: &DirEntry) -> CorpusPart {
    let mut contents = read_to_string(entry.path())
        .expect("Could not load contents.");

    let tokens = tokenize(&mut contents);
    let counted_words = collect(&tokens);

    CorpusPart {
        percent_of_total: 0.0,
        word_count: tokens.len(),
        words: counted_words
    }
}

pub fn tokenize(normalized: &mut String) -> Vec<String> {
    // snip ...
}

pub fn collect(results: &Vec<String>) -> Counter<UniCase<&'_ String>> {
    results.iter()
        .map(|w| UniCase::new(w))
        .collect::<Counter<_>>()
}

Однако, когда я пытаюсь вернуть CorpusPart, он жалуется, что пытается ссылаться на локальную переменную tokens , Как я могу / должен иметь дело с этим? Я попытался добавить аннотации времени жизни, но не смог понять ...

По сути, мне больше не нужны Vec<String>, но мне нужны некоторые из String, которые были в нем для counter.

Любая помощь приветствуется, спасибо!

1 Ответ

2 голосов
/ 20 апреля 2020

Проблема здесь в том, что вы отбрасываете Vec<String>, но все еще ссылаетесь на элементы внутри него. Если вам больше не нужен Vec<String>, но все же требуется некоторое содержимое внутри, вы должны передать право собственности на что-то другое.

Я предполагаю, что вы хотите, чтобы Corpus и CorpusPart оба указывали на одинаковые строки, поэтому вы не должны дублировать строки без необходимости. Если это так, то Corpus или CorpusPart должны владеть строкой, чтобы тот, у которого нет строки, ссылался на строки, принадлежащие другой. (Звучит сложнее, чем на самом деле)

Я предполагаю, что CorpusPart владеет строкой, а Corpus просто указывает на эти строки

use std::fs::DirEntry;
use std::fs::read_to_string;

pub struct UniCase<a> {
    test: a
}

impl<a> UniCase<a> {
    fn new(item: a) -> UniCase<a> {
        UniCase {
            test: item
        }
    }
}

type Counter<a> = Vec<a>;

struct Corpus<'a> {
    words: Counter<UniCase<&'a String>>, // Will reference the strings in CorpusPart (I assume you implemented this elsewhere)
    parts: Vec<CorpusPart>
}

pub struct CorpusPart {
    percent_of_total: f32,
    word_count: usize,
    words: Counter<UniCase<String>> // Has ownership of the strings
}

fn process_file(entry: &DirEntry) -> CorpusPart {
    let mut contents = read_to_string(entry.path())
        .expect("Could not load contents.");

    let tokens = tokenize(&mut contents);
    let length = tokens.len(); // Cache the length, as tokens will no longer be valid once passed to collect
    let counted_words = collect(tokens);

    CorpusPart {
        percent_of_total: 0.0,
        word_count: length,
        words: counted_words
    }
}

pub fn tokenize(normalized: &mut String) -> Vec<String> {
    Vec::new()
}

pub fn collect(results: Vec<String>) -> Counter<UniCase<String>> {
    results.into_iter() // Use into_iter() to consume the Vec that is passed in, and take ownership of the internal items
        .map(|w| UniCase::new(w))
        .collect::<Counter<_>>()
}

Я связал Counter<a> с Vec<a>, так как я не знаю, какой счетчик вы используете.

Детская площадка

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...