文章
15
标签
13
分类
9
首页
归档
标签
图片
分类
友链
好急好急的Hexo博客
基础乐理
首页
归档
标签
图片
分类
友链
基础乐理
发表于
2025-09-17
|
更新于
2025-09-17
|
浏览量:
文章作者:
Linghao Zhang
文章链接:
http://zlh123123.github.io/2025/09/17/%E5%9F%BA%E7%A1%80%E4%B9%90%E7%90%86/
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来源
好急好急的Hexo博客
!
下一篇
CS336
这是25年春CS336的课堂笔记和作业,课程网站为Stanford CS336 | Language Modeling from Scratch,课程视频可在哔哩哔哩上观看:斯坦福CS336:大模型从0到1。 此课程内容涵盖分词、模型架构、系统优化、数据处理和模型对齐等方面,通过从零开始构建语言模型,深入理解NLP和AI的核心技术。 我的作业备份仓库:zlh123123/CS336_spring2025: CS336的作业与课程笔记 Tokenization 什么是分词(Tokenization) 分词是将**字符串(文本)转换为令牌(tokens,通常是整数索引)**的过程,以便语言模型处理。反过来,也需要将令牌解码回字符串。分词器(Tokenizer)需要实现以下两个方法: encode:将字符串编码为整数序列(tokens)。 decode:将整数序列解码回字符串。 123string = "Hello, 🌍! 你好!"indices = [15496, 11, 995, 0] 分词评估指标 词汇表大小(Vocabulary...
Linghao Zhang
文章
15
标签
13
分类
9
Follow Me
公告
欢迎来到我的博客,这里是我的个人博客,主要用来记录一些学习笔记和生活感悟,希望能给你带来一些帮助。
最新文章
基础乐理
2025-09-17
CS336
2025-07-17
排序算法
2025-07-09
网络空间安全及法律法规
2025-06-13
N2备考计划
2025-06-12