avatar
文章
15
标签
13
分类
9
首页
归档
标签
图片
分类
友链
Logo好急好急的Hexo博客基础乐理
首页
归档
标签
图片
分类
友链

基础乐理

发表于2025-09-17|更新于2025-09-17
|浏览量:
文章作者: Linghao Zhang
文章链接: http://zlh123123.github.io/2025/09/17/%E5%9F%BA%E7%A1%80%E4%B9%90%E7%90%86/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 好急好急的Hexo博客!
cover of next post
下一篇
CS336
这是25年春CS336的课堂笔记和作业,课程网站为Stanford CS336 | Language Modeling from Scratch,课程视频可在哔哩哔哩上观看:斯坦福CS336:大模型从0到1。 此课程内容涵盖分词、模型架构、系统优化、数据处理和模型对齐等方面,通过从零开始构建语言模型,深入理解NLP和AI的核心技术。 我的作业备份仓库:zlh123123/CS336_spring2025: CS336的作业与课程笔记 Tokenization 什么是分词(Tokenization) 分词是将**字符串(文本)转换为令牌(tokens,通常是整数索引)**的过程,以便语言模型处理。反过来,也需要将令牌解码回字符串。分词器(Tokenizer)需要实现以下两个方法: encode:将字符串编码为整数序列(tokens)。 decode:将整数序列解码回字符串。 123string = "Hello, 🌍! 你好!"indices = [15496, 11, 995, 0] 分词评估指标 词汇表大小(Vocabulary...
avatar
Linghao Zhang
文章
15
标签
13
分类
9
Follow Me
公告
欢迎来到我的博客,这里是我的个人博客,主要用来记录一些学习笔记和生活感悟,希望能给你带来一些帮助。
最新文章
基础乐理
基础乐理2025-09-17
CS336
CS3362025-07-17
排序算法
排序算法2025-07-09
网络空间安全及法律法规
网络空间安全及法律法规2025-06-13
N2备考计划
N2备考计划2025-06-12
©2022 - 2025 By Linghao Zhang
框架 Hexo|主题 Butterfly