Hugging Face LLM Course: Практика с трансформерами · Урок 2
Токенизация: BPE, WordPiece, SentencePiece
Токенизатор разбивает текст на субслова и превращает их в числа, которые понимает модель.
Практическое задание
Что сделать после урока
Токенизируйте одно предложение тремя токенизаторами (BERT, GPT-2, T5). Посчитайте токены и найдите различия. Проверьте поведение с русским текстом.
Готовый промпт
Шаблон под задачу урока
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
Объясни, почему токенизатор разбил слово так. Модель: <…> Слово: <…> Токены: <…> Объясни логику и влияние на качество.
Типичные ошибки
На чём чаще всего спотыкаются
- Смешивают токенизатор одной модели с весами другой — input_ids несовместимы.
- Не добавляют attention_mask при паддинге — модель считает паддинг реальными токенами.
Лайфхаки
Что работает, но в гайдах не пишут
- encode_plus() возвращает все поля сразу.
- offset_mapping из fast-токенизатора привязывает NER-предсказания к символам.