大模型学习靠书不可行,开源日日新
书本的知识太落后了,还是得看开源仓库,不然早就落后了。
这种书的时效性太差,原理原理讲不出清楚。
而且写得不明不白,赶工的干活
代码只会堆砌,说不定作者都不大明白
GPT微调整出bert tokenzier这词表都不匹配,跑出来什么乱码输出?要学原理,就直接看nanogpt把GPT2的训练和微调代码整明白
至于微调嘛,那肯定用最先进的模型了,
还是得看大佬的开源项目,比如nanagpt, llama.cpp llm.c,微调代码哪有那么复杂,llama_factorcy一出,增量预训练、全量微调和各种peft都解决了。不然就用peft库的代码,
和大公司的开源模型,qwen2 llama3
有关键情节透露