0) The spelled-out intro to neural networks and backpropagation: building micrograd25просмотров7 месяцев назад
Интуитивное объяснение проксимальной оптимизации политики (PPO) для больших языковых моделей9просмотров8 месяцев назад
GRPO (групповая относительная оптимизация политики) от DeepSeek | Обучение с подкреплением для LLM13просмотров8 месяцев назад