博客
分类
标签
归档
友链
关于
博客
分类
标签
归档
友链
关于
MengFanjun的博客
主页
标签
Qwen3-8B大模型微调实战
安装相关依赖12345678910!pip install unsloth# 卸载当前已安装的 unsloth 包(如果已安装),然后从 GitHub 的源代码安装最新版本。# 这样可以确保我们使用的是最新功能和修复。!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir --no-deps git+...
2025-12-06
Read More
Stanford CS336 assignment1(上)
源仓库链接:https://github.com/stanford-cs336/assignment1-basics 介绍 Byte-Pair Encoding (BPE) TokenizerThe Unicode Standard(a) 12>>> chr(0)'\x00' (b)_repr_ (字符串表示):目标是明确和无歧义。它的主要受众是开发者,...
2025-10-02
Read More
Standford CS336(二)训练模型介绍
github库链接:https://github.com/stanford-cs336/spring2025-lectures 概述本讲将讨论训练模型所需的所有基本要素,从张量到底层模型,再到优化器和训练循环。我们将密切关注效率(资源利用)。 资源类型 内存 (GB) 计算 (FLOPs) 内存核算张量基础张量是存储所有内容(参数、梯度、优化器状态、数据、激活)的基本构建块。PyTorch...
2025-08-30
Read More
Standford CS336(一)课程介绍
仓库链接:https://github.com/stanford-cs336/spring2025-lectures 斯坦福CS336:从零开始构建语言模型 (2025春季)课程简介本课程是斯坦福大学CS336课程的第二次开课,专注于“从零开始构建语言模型”。值得注意的是,本课程在斯坦福大学的规模增长了50%,显示出其日益增长的受欢迎程度和重要性。 为什么开设这门课程?开设这门课程的核心原因...
2025-08-21
Read More