你跑的时最小的吧,几GB的那种。 单凡你跑个10GB的, 就不可能有这个速度。<br />
<br />
理论最好的情况10-6=4GB要传 ...</blockquote></div><br />
16B,模型大小8.9G <div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327172&ptid=1402334" target="_blank"><font color="#999999">杜甫 发表于 2025-4-12 15:30</font></a></font><br />
16B,模型大小8.9G</blockquote></div><br />
你这个是moe的,每次只读取激活的权重,远远小于8.9. 大概率都小于6GB.<br />
<br />
其他模型每次都要读取8.9GB. 不信你跑下其他模型,同样8.9GB, 你会发现速度大幅度下降。估计也就2token/s左右了。 <div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327223&ptid=1402334" target="_blank"><font color="#999999">吊打华伪 发表于 2025-4-12 16:07</font></a></font><br />
你这个是moe的,每次只读取激活的权重,远远小于8.9. 大概率都小于6GB.<br />
<br />
其他模型每次都要读取8.9GB. ...</blockquote></div><br />
不懂。<br />
128G的内存,能跑32B的模型了吧 <div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327238&ptid=1402334" target="_blank"><font color="#999999">杜甫 发表于 2025-4-12 16:15</font></a></font><br />
不懂。<br />
128G的内存,能跑32B的模型了吧</blockquote></div><br />
能是能,就是超级慢。 你也不用折腾了,就跑i现在这个moe最合适了,换其他的8.9G 最多2token/s. <br />
换更大24G的,会直接掉到0.3以下。 也就是你想跑大的模型,只能把p106去掉。会大幅度提高速度。<br />
<br />
因为cpu算力虽然比显卡慢,但是最慢的数据传输部分,读取速度从矿卡的4GB/s大幅提高到了40GB/s(ddr4 3200双通道). <div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327302&ptid=1402334" target="_blank"><font color="#999999">吊打华伪 发表于 2025-4-12 17:03</font></a></font><br />
能是能,就是超级慢。 你也不用折腾了,就跑i现在这个moe最合适了,换其他的8.9G 最多2token/s. <br />
换更大 ...</blockquote></div><br />
就是说去掉烂显卡,反而会快很多? <div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327320&ptid=1402334" target="_blank"><font color="#999999">杜甫 发表于 2025-4-12 17:11</font></a></font><br />
就是说去掉烂显卡,反而会快很多?</blockquote></div><br />
对大体积的而言,确实会快。 但是不是快太多。但肯定比被pcie 1.1*16限制下的0.3 token每秒快很多。2token差不多吧。<br />
<br />
除了moe模型之外,其他模型每算一个token就要读取整个模型大小。<br />
<br />
对大体积的而言,超过了你显存,cpu再慢,也用不了数据传输那么久。 <div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16327081&ptid=1402334" target="_blank"><font color="#999999">吊打华伪 发表于 2025-4-12 14:35</font></a></font><br />
香菇肥牛,有印象 记得以前看过你博客的一篇教程。<br />
<br />
没有独显,纯核显。</blockquote></div><br />
用的OpenVino? 我去研究研究
页:
1
[2]