
華爾街分析師警告:兩檔半導體股可能重挫32%與43%,快賣掉!


華爾街分析師警告:兩檔半導體股可能重挫32%與43%,快賣掉!

【美股動態】美光財測爆表,估值仍低

美光科技Q2業績驚豔!股價卻遭拋售,分析師看法兩極

六家企業逆勢成長!九大公司財報揭示市場韌性與宏觀不確定性

服務Now、Qualcomm與艾利藍黛:本週分析師重磅推薦及評級調整一覽

美股週末重挫!中東局勢推升油價,科技股成焦點

2026年這兩檔人工智慧股票悄然超越美光科技,獲利高達76%與82%!

納斯達克指數重挫2% 創下六個月新低,科技股持續承壓!

美國股市連續四週下跌,油價高企與金價暴跌引發投資者擔憂!

【美股動態】美光五年大單鎖供應,毛利率衝八成


報導提出NVIDIA 研究人員提出一種新技術,可大幅降低大型語言模型在追蹤對話歷史時所需的記憶體,最高可達 20 倍,且不需修改模型本身。 提出的 KVTC,核心不是在討論記憶體會不會變少,而是在解決大型語言模型推論階段一個很現實的問題:當對話越來越長、上下文越來越多、agent 任務越來越複雜之後,系統反而不是先卡在算力,而是先卡在快取管理、資料搬運與延遲。TechNews 的整理很清楚,KVTC 能在不修改模型本身的前提下,大幅壓縮 KV cache,最高可把用量縮到 1/20,並讓首次 token 生成時間最高改善 8 倍。  先看它改善的第一件事:首次回應速度,也就是 time-to-first-token。很多人以為模型慢,是因為模型不夠強,實際上在長上下文、多輪對話、提示詞重複利用這些場景裡,真正拖慢速度的,常常不是推理核心本身,而是系統要先把龐大的歷史快取找回來、搬進來、整理好,才能開始吐出第一個 token。KVTC 把這塊快取壓得更小,等於先把「系統還沒開始回答前的準備時間」縮短,所以最直接的體感改善,就是回應變快。  第二個改善的是延遲的穩定度。過去長上下文任務最麻煩的地方,不只是平均速度慢,而是延遲波動大。對話一長,快取一膨脹,系統就得頻繁做卸載、載回、重組,甚至重新計算部分內容,結果就是有時候快、有時候突然很慢。TechNews 引述 NVIDIA 研究人員的說法也點到這件事:過時或閒置的快取會占用寶貴空間,迫使系統把它移到其他儲存層,或者乾脆重算,這兩件事都會把延遲拉高。KVTC 的價值,就是把原本很重的快取搬運與管理負擔降下來,讓推論流程更平順。  第三個改善的是吞吐量,也就是同一套系統能同時服務多少請求。這一點非常關鍵。因為在實際部署環境裡,模型不是只服務一個人,而是要同時支援大量使用者、多個 session、甚至大量 agent 並行工作。當 KV cache 太肥,系統可同時承接的工作數就會下降,因為很多資源被卡在維持上下文,而不是拿去服務新的請求。TechNews 直接提到,LLM 在推論時高度受限於記憶體,能同時服務的用戶數量,往往是受 GPU 記憶體限制,而不是運算能力。KVTC 把這段負擔壓下來,實際意義就是同樣的推論基礎設施,可以承接更多並發請求。  第四個改善的是快取重用效率。這對 agent、企業知識問答、長流程工作特別重要。因為這些應用不是一次問答結束,而是會不斷沿用前面的提示、背景資料、系統指令與歷史脈絡。以前這些內容雖然可以快取,但快取太大,保存、搬運、恢復都很重。KVTC 等於把快取做成一種更可管理的格式,讓提示與上下文的重複利用更有價值。TechNews 也明講,這對依賴 agents 與 long context 的企業級 AI 應用,能更有效重複使用提示,並避免因丟棄快取後重算而帶來的額外延遲。  第五個改善的是整體系統效率,而不只是模型本身效率。這是最容易被忽略的地方。因為大家看到壓縮技術,直覺都會想到「省容量」,但 KVTC 真正有價值的地方,是它把推論系統裡最沒效率的一段資料流動重新整理掉。TechNews 提到,即使把快取卸載到 CPU 記憶體或 SSD,仍然會產生顯著資料傳輸開銷,甚至造成網路頻寬飽和與新的瓶頸。這代表問題從來不只是存不存得下,而是資料在不同層之間移動的成本太高。KVTC 把資料變小之後,改善的是整條鏈路的效率,包括儲存、傳輸、恢復與再次使用。  如果再往技術本質看,KVTC 之所以有機會同時兼顧壓縮率與效果,是因為它不是粗暴地把數值砍掉,而是利用 KV 張量本身的低秩結構。NVIDIA 在論文裡的方向,是把類似媒體壓縮的概念搬進 KV cache,透過轉換、量化與編碼,保留主要資訊、去掉冗餘表示。也因為它不需要修改模型權重,所以更接近一種可直接插入既有推論系統的工程化方案,而不是必須重訓或重做模型架構的大工程。  新聞當然喜歡聳動,但認真分析就知道不應該寫成「它讓記憶體需求下降」,而應該寫成:它把大模型推論中最容易拖慢系統的那一段快取管理,從高負擔、低效率、容易形成延遲瓶頸,變成更輕、更快、更容易重用。改善的不是單一規格,而是整體推論體驗,包含首次回應速度、延遲穩定度、系統吞吐量、快取重用效率,以及長上下文與 agent 任務的可擴展性,讓我們期待的實體AI,更快更容易的被實現。 

就在昨天,韓國大摩出具報告認爲,以龍蝦🦞OpenClaw爲代表的智能體AI將需求從「生成答案」轉向「完成任務」,工作流中頻繁的工具調用與多步編排使CPU計算量猛增,貢獻了主要延遲。同時,由於需頻繁共享上下文與卸載KV緩存,DRAM取代HBM成爲硬約束瓶頸。這移觸發2026年Q2內存價格暴漲,大摩上調SK海力士與三星的盈利預期。 同樣是大摩,韓國分析師才剛在講,OpenClaw 這類 agentic AI 正在把 DRAM 拉回系統核心,成為新一輪需求擴張的關鍵;台灣分析師那邊,卻還在用一套缺乏邏輯連結的框架下修、看淡。這種前後落差,問題已經不只是立場不同,而是推論方法出了問題。 如果 AI 的演進還停留在「生成答案」,那你說 HBM 最重要,其他記憶體只是配角,這個邏輯還勉強說得過去。但現在產業正在往前走的方向,早就不是單次推理而已,而是從回答問題走向完成任務。Agent 要做的事情,是反覆呼叫工具、讀寫資料、串接系統、共享上下文、搬移 KV cache、執行多步驟流程。這種架構下,瓶頸自然不會只剩 HBM,而是一路往系統記憶體、CPU 端、再往下到 SSD 一層一層擴散。 韓國分析師看到的是這件事,所以他們會說 OpenClaw 這種「龍蝦」不是小題材,而是 DRAM 新需求的放大器。因為 AI 開始做事之後,記憶體的角色就變了。以前記憶體比較像配合 GPU 運作的後勤,現在變成整個 agent workflow 能不能跑得動的基礎設施。DRAM 不夠,不是速度慢一點,而是流程中斷、系統崩潰、任務根本跑不完。 但台灣分析師之前那套看法,問題就在於他們還是用很舊的方式看記憶體,把市場切成 HBM 跟非 HBM,把需求理解成只有訓練端受惠,把一般 DRAM 當成會被排擠、會被邊緣化的舊產品。這個邏輯最大的漏洞是,AI 並沒有把需求集中到更少的料號,反而是把整個 memory hierarchy 一起往上拉。HBM 當然重要,但 DRAM 沒有因此不重要,SSD 也沒有因此失去價值。相反地,當上下文變長、推理次數變多、agent 持續在線、資料要頻繁搬移時,系統對 DRAM 跟 NAND 的依賴只會更高。 更諷刺的是,美光法說早就把方向講得很清楚。公司不是只有在講 HBM 強,而是直接講 DRAM 跟 NAND 都處在供給受限狀態,AI 跟傳統伺服器需求一起推升整體記憶體與儲存需求。連終端裝置也一樣,具備 agentic AI 能力的 PC,記憶體規格直接往 32GB 甚至更高走,個人 AI 工作站甚至已經走到 128GB。這代表需求不是集中,而是擴散;不是單點爆發,而是全面墊高。 再往長線看,車用跟機器人更是另一個更大的落差。現在多數車還在 L2 以下,平均只用約 16GB DRAM,但 L4 自駕車會拉到 300GB。人形機器人的運算與記憶體需求,長期看也會往這個等級靠近。這些都代表記憶體的需求曲線不是快走完,而是才剛從資料中心往更多應用延伸。這種情況下還在用舊週期思維看 DRAM,只能說不是太保守,而是根本沒跟上產業結構變化。 所以我對台灣大摩那份悲觀報告的質疑,不是因為它看空就不對,而是它的邏輯前提本身站不住腳。當韓國分析師已經看到 agentic AI 對 DRAM 的新增量,看到瓶頸從 HBM 往系統記憶體遷移,台灣分析師如果還在用「非 HBM 就不行」「傳統 DRAM 沒有新故事」這種方式下修,那不是保守,那是分析架構出了問題。 記憶體這一輪最重要的變化,就是市場不能再只看單一產品,也不能再只看短週期價格。真正該看的,是 AI 正在把運算需求從 GPU 核心往整個系統展開,從 HBM 延伸到 DRAM,從 DRAM 再延伸到 SSD。龍蝦不是在替記憶體續命,而是在證明一件事:當 AI 從會回答問題,變成會自己做事,記憶體的需求天花板會被整個打開。
您已登出
若要繼續使用請重新登入
錯誤
發生錯誤,請再試一次。
您尚未登入
此功能需要登入才能使用。