| (mistralaimistralai/mistral-medium-3.5-128b) NIM API 體驗Prototype, 然後很意外大好用 |
| 喵娘Hermes Agent搭配Mistral-medium-3.5-128b 開啟Reaoning High,嘗試解決問題 |
以往要測試不同的LLM Model需要訂閱或是開API儲值超多家有的沒的的服務或是OpenRouter來導流. 不過現在有可以透過nVidia NIM Developer, 搭配Agentic AI來設定config就可以有效的驗證各家新東西.
| AIanalysis 模型最新的評比(透過各種CP比較, 周末裡面幾個開源模型Reasoning High來測試) |
將手上的模型把已經建好的Skills套用這類開源模型後, 實際體驗下來只能說驚訝, 尤其是過往Production-Ready的都是基於Gemini-2.5-Flash/Pro這類穩定但沒有Reasoning或是MoE的, 但是對於Agentic AI來使用, 就會常常發生做了很多撞牆的事情, 尤其在寫code或是新的技能上. 非得要Call Gemini-3.5Flash或是3.1-Flash-(lite)這種有Reasoning技巧的來撬開畚箕讓灰塵收集起來, 導出一條可行的最小路徑(同常這過程就噴了好幾百....SaaS服務越大, 越多token得燒). 推薦大家可以從nVidia NIM來找出一個最適合自己龍蝦或是Hermes Agent使用的Reasoning LLM. 我自己是開到滿, 當參考這篇Medium的推廣Async強大的新模混合專家後, 深感這種所謂的蒸餾與MoE實在是高速做例行事務的好幫手(又免費XD).
| Agentic AI Benchmark |
如果有興趣體驗新時代的Agent AI匹配的模(魔)型, 要記得Spec要對得上以下(至少),LLM的Spec.好像也不是那麼容易看ㄝ, 還是得自己加掛上去Harness Engineering跑一段時間才知道體感的差異: 這段期間測試了Kimi-2.6, Gemma-4-31/26, Deepseek-v4-flash, Gemini-3.5 Flash v.s. 3.1-Flash-lite, 還有Qwen3.5
(Medium) A Unified Model for Everything

沒有留言:
張貼留言
謝謝您的留言, 我會在收到通知後盡快回覆您的.
Thanks for your comment. l may reply once I got notification.