Chuẩn bị tung ra mô hình R2, DeepSeek vẫn là 'cơn ác mộng' với các mô hình tiêu tốn nhiều chi phí và tài nguyên tính toán

Bảo Bảo (Biên dịch theo Venture Beat)

13:12 16/06/2025

Doanh nghiệp

DeepSeek chuẩn bị tung ra mô hình R2, trong bối cảnh phải đối mặt với nguy cơ siết chặt hơn nữa các lệnh hạn chế chip từ Mỹ.

DeepSeek chuẩn bị tung ra mô hình R2. (Ảnh: Reuters)

Khi DeepSeek công bố mô hình R1 vào tháng 1 năm nay, đó không chỉ đơn thuần là một bản tin AI mới. Đây là cột mốc quan trọng khiến toàn ngành công nghệ phải chấn động và buộc nhiều ông lớn phải đánh giá lại cách tiếp cận cốt lõi trong phát triển AI. DeepSeek đang đẩy nhanh tiến độ ra mắt mô hình R2, kế nhiệm mô hình R1.

Điều khiến thành tựu của DeepSeek trở nên đặc biệt không nằm ở những khả năng hoàn toàn mới, mà ở cách họ đạt được kết quả tương đương với các “ông lớn” công nghệ phương Tây với chi phí chỉ bằng một phần nhỏ.

Điểm sáng của DeepSeek nằm ở lựa chọn những ưu tiên khác biệt. Kết quả là, ngành AI hiện đang phát triển song song trên hai hướng: hiệu suất tính toán và tối ưu hóa chi phí.

Khi DeepSeek chuẩn bị tung ra mô hình R2, trong bối cảnh phải đối mặt với nguy cơ siết chặt hơn nữa các lệnh hạn chế chip từ Mỹ, câu hỏi đặt ra là: vì sao công ty lại thu hút nhiều sự chú ý đến vậy?

Vượt qua hạn chế về tài nguyên

Sự xuất hiện đầy bất ngờ của DeepSeek đã cho thấy khả năng sáng tạo có thể bùng nổ ngay cả khi bị hạn chế lớn về tài nguyên. Trước các lệnh kiểm soát xuất khẩu của Mỹ, vốn hạn chế quyền tiếp cận những con chip AI tối tân nhất, DeepSeek buộc phải tìm ra những con đường thay thế để tiếp tục phát triển AI.

Trong khi các công ty Mỹ theo đuổi hiệu suất thông qua phần cứng mạnh hơn, mô hình lớn hơn và dữ liệu tốt hơn, DeepSeek lại tập trung vào việc tối ưu những gì sẵn có. Họ triển khai những ý tưởng quen thuộc nhưng với mức độ thực thi vượt trội — và chính sự hoàn thiện trong thực thi này lại trở thành điểm mới.

Cách tiếp cận ưu tiên hiệu quả này đã mang lại những kết quả đầy ấn tượng. Theo các báo cáo, mô hình R1 của DeepSeek có khả năng sánh ngang với OpenAI nhưng chỉ tiêu tốn 5-10% chi phí vận hành.

Chẳng hạn, đợt huấn luyện cuối cùng của mô hình V3 - tiền thân của R1, chỉ tiêu tốn 6 triệu USD, con số mà cựu kỹ sư AI Tesla, Andrej Karpathy, gọi là “một khoản ngân sách như trò đùa” so với hàng trăm triệu USD mà các đối thủ Mỹ bỏ ra.

Đáng chú ý hơn, trong khi OpenAI chi 500 triệu USD để huấn luyện mô hình Orion gần đây, DeepSeek đạt được kết quả thậm chí còn tốt hơn với chi phí chỉ 5,6 triệu USD - chưa đến 1,2% ngân sách của OpenAI.

Tuy nhiên, nếu nghĩ rằng DeepSeek đạt thành tích này hoàn toàn trong thế yếu do thiếu chip AI tiên tiến thì điều đó chưa hoàn toàn chính xác. Các lệnh kiểm soát ban đầu của Mỹ chủ yếu nhắm vào năng lực tính toán (compute), chứ không hạn chế về bộ nhớ và khả năng kết nối mạng - hai yếu tố then chốt giúp DeepSeek vận hành hệ thống hiệu quả.

Nhờ vậy, những con chip mà DeepSeek sử dụng tuy không tối tân nhất về compute nhưng vẫn có khả năng kết nối và bộ nhớ mạnh, cho phép họ song song hóa các tác vụ trên nhiều đơn vị tính toán - một chiến lược quan trọng để vận hành mô hình lớn với chi phí thấp.

Cộng hưởng với nỗ lực làm chủ toàn bộ chuỗi giá trị AI từ phía chính phủ Trung Quốc, DeepSeek đã thúc đẩy tốc độ đổi mới nhanh hơn dự kiến của giới quan sát phương Tây. Thành tựu của họ thực chất chỉ là sự tất yếu trong tiến trình phát triển AI, nhưng DeepSeek đã đẩy nhanh quá trình đó lên trước vài năm - điều mà khó ai có thể làm được.

Mô hình thực dụng hơn

Không chỉ dừng lại ở phần cứng, cách DeepSeek xử lý dữ liệu huấn luyện cũng khác biệt so với thông lệ phương Tây. Thay vì chỉ dựa vào dữ liệu thu thập từ internet, họ tận dụng mạnh mẽ dữ liệu tổng hợp (synthetic data) và đầu ra từ các mô hình độc quyền khác - một hình thức chưng cất mô hình (model distillation).

Cách tiếp cận này tuy mang lại hiệu quả cao về chi phí nhưng cũng đặt ra nhiều câu hỏi về quyền riêng tư dữ liệu, khiến doanh nghiệp phương Tây dè dặt.

Tuy nhiên, việc khai thác dữ liệu tổng hợp có thể tạo ra lợi thế lớn nếu được vận dụng đúng cách. Một số kiến trúc mô hình, như kiến trúc mixture-of-experts (MoE) mà DeepSeek đang sử dụng, có khả năng xử lý dữ liệu tổng hợp tốt hơn, trong khi các mô hình dày đặc truyền thống như Llama đời đầu có nguy cơ bị suy giảm hiệu suất hoặc thậm chí "sụp đổ" khi dùng quá nhiều dữ liệu nhân tạo.

Nguyên nhân nằm ở việc dữ liệu tổng hợp thường mang các mẫu phân phối khác với dữ liệu thực tế, khiến mô hình dễ học lệch hoặc đưa ra các giả định sai lệch nếu không được thiết kế phù hợp.

Tuy nhiên, đội ngũ kỹ sư DeepSeek đã từ đầu xây dựng kiến trúc của mình nhằm tích hợp tối ưu dữ liệu tổng hợp mà vẫn duy trì hiệu suất.

Tác động đến toàn ngành AI

Sự nổi lên của DeepSeek không chỉ là thành tích đơn lẻ mà đã tạo ra những chuyển động chiến lược trên toàn ngành.

Đơn cử, chỉ một tháng sau khi DeepSeek ra mắt, Sam Altman, CEO của OpenAI, thừa nhận OpenAI đã “chọn nhầm phía trong lịch sử” khi kiên trì theo đuổi AI nguồn đóng. Trong bối cảnh OpenAI phải chi tới 7-8 tỷ USD mỗi năm để vận hành, áp lực kinh tế từ những mô hình hiệu quả như DeepSeek ngày càng rõ rệt.

Điều này buộc OpenAI phải gọi vốn khổng lồ lên tới 40 tỷ USD, nâng định giá công ty lên mức chưa từng có: 300 tỷ USD. Thế nhưng, ngay cả khi có thêm tiền, bài toán cốt lõi vẫn còn đó: mô hình của OpenAI tiêu tốn tài nguyên gấp nhiều lần so với cách tiếp cận tiết kiệm của DeepSeek.

Bước tiến trong khả năng tự đánh giá

Một xu hướng quan trọng khác mà DeepSeek đẩy nhanh là “tính toán trong lúc suy luận” (test-time compute). Khi các phòng thí nghiệm AI lớn đã khai thác gần như toàn bộ dữ liệu công khai trên internet, sự khan hiếm dữ liệu làm chậm tốc độ cải thiện mô hình.

Để khắc phục điều đó, DeepSeek hợp tác với Đại học Thanh Hoa triển khai kỹ thuật "tự phê bình nguyên tắc" (Self-Principled Critique Tuning - SPCT), cho phép AI tự xây dựng bộ quy tắc đánh giá nội dung và tự đưa ra phê bình dựa trên những chuẩn mực đó.

Mô hình DeepSeek-GRM (generalist reward modeling) mà họ phát triển đại diện cho xu hướng AI tự đánh giá và tự cải thiện, nhưng cũng đi kèm nhiều rủi ro: các tiêu chuẩn mà AI tự đặt ra có thể lệch khỏi chuẩn mực đạo đức hay bối cảnh thực tế của con người. Nếu không có vòng kiểm soát từ con người, những sai lệch này có thể ngày càng lớn mà người dùng khó lý giải tại sao mô hình lại đưa ra kết quả như vậy.

Dù vậy, mô hình tự phê bình đang nhanh chóng trở thành xu hướng, khi DeepSeek kết hợp nhiều ý tưởng từ các nghiên cứu như "critique and revise" của OpenAI, "Constitutional AI" của Anthropic hay "self-rewarding agents".

Hướng đi mới của ngành AI

Sự trỗi dậy của DeepSeek đang mở ra xu thế phát triển song song trong ngành AI toàn cầu: trong khi một bên tiếp tục xây dựng siêu máy chủ mạnh hơn, bên kia tập trung tối ưu phần mềm và cấu trúc mô hình để giảm thiểu tiêu thụ điện năng - vốn đang vượt xa khả năng sản xuất điện toàn cầu.

Các tập đoàn lớn đã bắt đầu điều chỉnh. Microsoft đã tạm dừng kế hoạch xây thêm trung tâm dữ liệu tại nhiều khu vực, chuyển sang hạ tầng phân tán, hiệu quả hơn dù vẫn dự kiến chi khoảng 80 tỷ USD cho AI trong năm tài khóa này.

Meta cũng nhanh chóng phản ứng, khi đưa kiến trúc MoE lần đầu vào dòng Llama 4 và chủ động so sánh với DeepSeek trong các bảng thử nghiệm hiệu năng.

Chỉ trong thời gian ngắn, thật trớ trêu khi những lệnh cấm vận mà Mỹ ban hành để duy trì vị thế AI lại vô tình thúc đẩy những đổi mới mà họ muốn kìm hãm. Bằng việc hạn chế nguồn lực, DeepSeek buộc phải mở lối đi riêng.

Trong tương lai, khả năng thích ứng sẽ là yếu tố sống còn với tất cả các bên. Dù là dỡ bỏ hay siết chặt thêm các quy định kiểm soát AI, chính cách ngành công nghệ học hỏi và phản ứng lẫn nhau sẽ quyết định cục diện toàn cầu trong cuộc đua AI đang ngày càng nóng lên.

https://sohuutritue.net.vn/chuan-bi-tung-ra-mo-hinh-r2-deepseek-van-la-con-ac-mong-voi-cac-mo-hinh-tieu-ton-nhieu-chi-phi-va-tai-nguyen-tinh-toan-d291489.html

Xem thêm về

Tin liên quan

Google tái cấu trúc nền tảng học tập nội bộ và bài học cho doanh nghiệp tồn tại thời AI

Google đang tiến hành một cuộc cải tổ lớn đối với nền tảng học tập nội bộ nổi tiếng của mình, với mục tiêu đào tạo nhân viên sử dụng các công cụ trí tuệ nhân tạo (AI) hiện đại trong công việc hàng ngày, theo CNBC.

S&P khai thác công nghệ AI của Snowflake để thu thập dữ liệu về SME hiệu quả gấp 5 lần

Google âm thầm ra mắt AI Edge Gallery – Công nghệ AI không cần kết nối Internet

Ngoại tệ	Mua		Bán
Ngoại tệ	Tiền mặt	Chuyển khoản	Bán
Cập nhật:

Chuẩn bị tung ra mô hình R2, DeepSeek vẫn là 'cơn ác mộng' với các mô hình tiêu tốn nhiều chi phí và tài nguyên tính toán

Vượt qua hạn chế về tài nguyên

Mô hình thực dụng hơn

Tác động đến toàn ngành AI

Bước tiến trong khả năng tự đánh giá

Hướng đi mới của ngành AI

Tin liên quan

Cùng chuyên mục

Nhiều người đọc

Tin liên quan

Top 500 doanh nghiệp tư nhân lớn nhất việt nam

Đọc thêm

Nhiều người đọc

Chứng khoán

Tin theo ngành hàng

Vàng

Xăng dầu

Nông sản

Ngoại tệ

Kim loại

Ô tô

Tỷ giá