Silen
Администратор
- Регистрация
- 3 Дек 2015
- Сообщения
- 179.131
- Реакции
- 755.674
Складчина: LLM-инженер [Gigaschool] часть 2 из 5
ВНИМАНИЕ: Это вторая из пяти складчин на полный курс.
В связи с высокой стоимостью (180 000 руб.) и продолжительностью (5,5 месяцев) курса, для удобства участников принято решение о его разделении на 5 частей. Каждая часть соответствует одному большому разделу программы. Каждая последующая складчина является продолжением предыдущей, и соответственно необходимо оплатить предыдущую.
Это вторая часть большого онлайн-курса, посвященная подготовке данных для RAG-систем. Вы научитесь правильно обрабатывать тексты, работать с векторными базами данных и энкодерами, а также освоите продвинутые методы информационного поиска и ранжирования для повышения релевантности ответов LLM.
Спойлер: Что вы освоите в этой части?
Ключевые навыки:
Обрабатывать тексты: парсинг, чанкинг, препроцессинг
Работать с энкодерами и векторными базами данных
Настраивать и оптимизировать системы информационного поиска (полнотекстовый, гибридный)
Использовать кросс-энкодеры для переранжирования и улучшения качества поиска
Оценивать качество энкодеров и методов поиска по метрикам
Основные инструменты:
FAISS
Hugging Face Transformers (для энкодеров)
BM25
Программа второй части курса
Раздел 2. Prerequisites для RAG
Лекция: Работа с текстами - парсинг, обработка текстов (применение ML + LLM в обработке).
Семинар: Различные виды чанкинга.
Лекция: Векторная БД, энкодеры, MTEB.
Семинар: Развёртывание векторной БД, проверка качества различных энкодеров.
Лекция: Информационный поиск - полнотекстовый, гибридный поиск, BM25, симметричный и ассиметричный поиск.
Семинар: Сравнение симметричного поиска и ассиметричного на конкретном примере.
Лекция: Ранжирование - инструменты, метрики для оценки качества, переранжирование.
Семинар: Построение собственное системы ранжирования, использование кросс-энкодера для переранжирования.
Эксперты курса:
Александр Потехин (NLP Lead, X5 Tech), Роман Соломатин (ML Engineer, X5 Tech), Дарья Андреева (ML Engineer, X5 Tech), Кристина Желтова (Директор по разработке моделей, Газпромбанк), Евгений Кокуйкин (CEO, Raft).
Предыдущие части курса:
Часть 1. Своя LLM
Следующие части курса:
Часть 3. RAG
Часть 4. Агенты
Часть 5. Инфраструктура
СКАЧАТЬ СЛИВ КУРСА
ВНИМАНИЕ: Это вторая из пяти складчин на полный курс.
В связи с высокой стоимостью (180 000 руб.) и продолжительностью (5,5 месяцев) курса, для удобства участников принято решение о его разделении на 5 частей. Каждая часть соответствует одному большому разделу программы. Каждая последующая складчина является продолжением предыдущей, и соответственно необходимо оплатить предыдущую.
Это вторая часть большого онлайн-курса, посвященная подготовке данных для RAG-систем. Вы научитесь правильно обрабатывать тексты, работать с векторными базами данных и энкодерами, а также освоите продвинутые методы информационного поиска и ранжирования для повышения релевантности ответов LLM.
Спойлер: Что вы освоите в этой части?
Ключевые навыки:
Обрабатывать тексты: парсинг, чанкинг, препроцессинг
Работать с энкодерами и векторными базами данных
Настраивать и оптимизировать системы информационного поиска (полнотекстовый, гибридный)
Использовать кросс-энкодеры для переранжирования и улучшения качества поиска
Оценивать качество энкодеров и методов поиска по метрикам
Основные инструменты:
FAISS
Hugging Face Transformers (для энкодеров)
BM25
Программа второй части курса
Раздел 2. Prerequisites для RAG
Лекция: Работа с текстами - парсинг, обработка текстов (применение ML + LLM в обработке).
Семинар: Различные виды чанкинга.
Лекция: Векторная БД, энкодеры, MTEB.
Семинар: Развёртывание векторной БД, проверка качества различных энкодеров.
Лекция: Информационный поиск - полнотекстовый, гибридный поиск, BM25, симметричный и ассиметричный поиск.
Семинар: Сравнение симметричного поиска и ассиметричного на конкретном примере.
Лекция: Ранжирование - инструменты, метрики для оценки качества, переранжирование.
Семинар: Построение собственное системы ранжирования, использование кросс-энкодера для переранжирования.
Эксперты курса:
Александр Потехин (NLP Lead, X5 Tech), Роман Соломатин (ML Engineer, X5 Tech), Дарья Андреева (ML Engineer, X5 Tech), Кристина Желтова (Директор по разработке моделей, Газпромбанк), Евгений Кокуйкин (CEO, Raft).
Предыдущие части курса:
Часть 1. Своя LLM
Следующие части курса:
Часть 3. RAG
Часть 4. Агенты
Часть 5. Инфраструктура
СКАЧАТЬ СЛИВ КУРСА
Для просмотра скрытого содержимого вы должны зарегистрироваться
Возможно, Вас ещё заинтересует:
- Введение в СДВГ: понимание и диагностика [EduNote] [Ольга Архипова]
- СДВГ: профессиональная помощь и помощь со стороны близких [EduNote] [Ольга Архипова]
- Инвестиции в скины Counter Strike 2 [stepik] [Михаил Никифоров]
- Соединение трёх судеб. 1 том. На Инь [Ван Минъин]
- Обучение по заработку [Owlsova]
- Рисуем поэтапно по точкам карандашом [Михаил Мастеров]