开启核显跑AI后，显存大小不是问题了，32B都满足不了我了！

吊打华伪 发表于 2025-4-12 11:45:57

跑个20G的模型，都是家常便饭<img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /> 
 
以前8G显卡只能跑个6G的模型，再大就用内存了，速度就和核显没区别了。

gdtv 发表于 2025-4-12 12:18:22

有教程吗

Ausxilia 发表于 2025-4-12 12:31:57

恩，知道你动作慢了

杜甫发表于 2025-4-12 13:55:29

<img src="https://hostloc.com/static/image/smiley/default/smile.gif" smilieid="1" border="0" alt="" /> 同求教程。 
不过我试P106-100 6G显卡+48G内存也可以跑32B啊，只是很慢

shc 发表于 2025-4-12 13:57:09

楼主是只有核显，还是有独显再开核显？

cici9911 发表于 2025-4-12 14:25:06

780m？  intel的核显好像不能共享内存

吊打华伪 发表于 2025-4-12 14:28:50

<div class="quote"><blockquote><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327013&ptid=1402334" target="_blank">杜甫发表于 2025-4-12 13:55</a> 
同求教程。 
不过我试P106-100 6G显卡+48G内存也可以跑32B啊，只是很慢</blockquote></div> 
你比我还慢。。。准确的说慢多了。 
pcie, 你矿卡才1.1*16，你理论值才4GB/s  比我慢多了。双通道内存带宽理论值有51.2GB/s, 实际算36GB。跑24G大小的模型，我的速度有36/24=1.5token/s  你最多0.3.  --------当然你要是跑小模型，几GB的那种，你的速度就吊打我了。 
 
我也有矿卡，7B Q4的模型，核显只有5个token, 矿卡有好几十<img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" />

吊打华伪 发表于 2025-4-12 13:55:00

本帖最后由吊打华伪于 2025-4-12 14:36 编辑 
<div class="quote"><blockquote><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327018&ptid=1402334" target="_blank">shc 发表于 2025-4-12 13:57</a> 
楼主是只有核显，还是有独显再开核显？</blockquote></div> 
 
香菇肥牛，有印象<img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" />    记得以前看过你博客的一篇教程。 
 
没有独显，纯核显。 
 
你可能不了解，现代AI构架都已经支持异步了，就是总时间=计算和传输的最大，而不是二者之和。独显算力比核显强再多，只要传输的时间多，算力就毫无意义。

杜甫发表于 2025-4-12 14:35:25

<div class="quote"><blockquote><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327063&ptid=1402334" target="_blank">吊打华伪发表于 2025-4-12 14:28</a> 
你比我还慢。。。准确的说慢多了。 
pcie, 你矿卡才1.1*16，你理论值才4GB/s  比我慢多了。双通道内存带宽 ...</blockquote></div> 
刚试了下， 
跑deepseek-coder-v2 16B 这个模型 
速度有9token/秒，不知道把P106拔下来后有多少

杜甫发表于 2025-4-12 13:57:00

<div class="quote"><blockquote><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327093&ptid=1402334" target="_blank">杜甫发表于 2025-4-12 14:43</a> 
刚试了下， 
跑deepseek-coder-v2 16B 这个模型 
速度有9token/秒，不知道把P106拔下来后有多少</blockquote></div> 
你跑的时最小的吧，几GB的那种。单凡你跑个10GB的，就不可能有这个速度。 
 
理论最好的情况10-6=4GB要传输。至少1秒。 
 
--------------以上针对密集模型，比如qwq32和llama以及deepseek微调的那些。--------------- 
 
啊，想起来了，你这个deepseek原生是moe模型，每次加载一小部分。所以速度还行。但是仅限于moe的才有这个速度，其他的绝大部分模型都不行。<div class="quote"><blockquote><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327093&ptid=1402334" target="_blank">杜甫发表于 2025-4-12 14:43</a> 
刚试了下， 
跑deepseek-coder-v2 16B 这个模型 
速度有9token/秒，不知道把P106拔下来后有多少</blockquote></div> 
我之前用这个<a href="https://hostloc.com/thread-1399611-1-1.html" target="_blank">https://hostloc.com/thread-1399611-1-1.html</a> 
生成文章的效果不是一般的差。 
 
不知道你这个coder版本质量怎么样。

页: [1] 2

全球主机交流论坛备用站's Archiver

开启核显跑AI后，显存大小不是问题了，32B都满足不了我了！