开启核显跑AI后,显存大小不是问题了,32B都满足不了我了!
跑个20G的模型,都是家常便饭<img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /> <br /><br />
以前8G显卡 只能跑个6G的模型,再大就用内存了,速度就和核显没区别了。<br />
<br />
有教程吗 恩,知道你动作慢了 <img src="https://hostloc.com/static/image/smiley/default/smile.gif" smilieid="1" border="0" alt="" /> 同求教程。<br />
不过我试P106-100 6G显卡+48G内存也可以跑32B啊,只是很慢 楼主是只有核显,还是有独显再开核显? 780m? intel的核显好像不能共享内存 <div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327013&ptid=1402334" target="_blank"><font color="#999999">杜甫 发表于 2025-4-12 13:55</font></a></font><br />
同求教程。<br />
不过我试P106-100 6G显卡+48G内存也可以跑32B啊,只是很慢</blockquote></div><br />
你比我还慢。。。准确的说慢多了。<br />
pcie, 你矿卡才1.1*16,你理论值才4GB/s 比我慢多了。双通道内存带宽理论值有51.2GB/s, 实际算36GB。 跑24G大小的模型,我的速度有36/24=1.5token/s 你最多0.3. --------当然你要是跑小模型,几GB的那种,你的速度就吊打我了。 <br />
<br />
我也有矿卡,7B Q4的模型,核显只有5个token, 矿卡有好几十<img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /> <i class="pstatus"> 本帖最后由 吊打华伪 于 2025-4-12 14:36 编辑 </i><br />
<div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327018&ptid=1402334" target="_blank"><font color="#999999">shc 发表于 2025-4-12 13:57</font></a></font><br />
楼主是只有核显,还是有独显再开核显?</blockquote></div><br />
<br />
香菇肥牛,有印象<img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /> 记得以前看过你博客的一篇教程。<br />
<br />
没有独显,纯核显。<br />
<br />
你可能不了解,现代AI构架都已经支持异步了,就是总时间=计算和传输的最大,而不是二者之和。独显算力比核显强再多,只要传输的时间多,算力就毫无意义。 <div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327063&ptid=1402334" target="_blank"><font color="#999999">吊打华伪 发表于 2025-4-12 14:28</font></a></font><br />
你比我还慢。。。准确的说慢多了。<br />
pcie, 你矿卡才1.1*16,你理论值才4GB/s 比我慢多了。双通道内存带宽 ...</blockquote></div><br />
刚试了下,<br />
跑deepseek-coder-v2 16B 这个模型<br />
速度有9token/秒,不知道把P106拔下来后有多少<br />
<div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327093&ptid=1402334" target="_blank"><font color="#999999">杜甫 发表于 2025-4-12 14:43</font></a></font><br />
刚试了下,<br />
跑deepseek-coder-v2 16B 这个模型<br />
速度有9token/秒,不知道把P106拔下来后有多少</blockquote></div><br />
你跑的时最小的吧,几GB的那种。 单凡你跑个10GB的, 就不可能有这个速度。<br />
<br />
理论最好的情况10-6=4GB要传输。 至少1秒。<br />
<br />
--------------以上针对密集模型,比如qwq32和llama以及deepseek微调的那些。---------------<br />
<br />
啊,想起来了, 你这个deepseek原生是moe模型,每次加载一小部分。所以速度还行。但是仅限于moe的才有这个速度,其他的绝大部分模型都不行。<div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327093&ptid=1402334" target="_blank"><font color="#999999">杜甫 发表于 2025-4-12 14:43</font></a></font><br />
刚试了下,<br />
跑deepseek-coder-v2 16B 这个模型<br />
速度有9token/秒,不知道把P106拔下来后有多少</blockquote></div><br />
我之前用这个<a href="https://hostloc.com/thread-1399611-1-1.html" target="_blank">https://hostloc.com/thread-1399611-1-1.html</a><br />
生成文章的效果不是一般的差。<br />
<br />
不知道你这个coder版本质量怎么样。
页:
[1]
2