Thứ hai 16/06/2025 13:35
Tin mới
  • Vì sao Novaland lên kế hoạch họp ĐHĐCĐ bất thường vào tháng 8/2025?

  • Chuẩn bị tung ra mô hình R2, DeepSeek vẫn là 'cơn ác mộng' với các mô hình tiêu tốn nhiều chi phí và tài nguyên tính toán

  • Thị trường chứng khoán và đồng USD vững vàng tại châu Á, giá dầu tiếp tục tăng

  • Sản lượng công nghiệp Trung Quốc chững lại, doanh số bán lẻ bất ngờ khởi sắc, giá nhà tiếp tục giảm

  • Nhà Khang Điền sắp phát hành hơn 111 triệu cổ phiếu tăng vốn lên 11.222 tỷ

  • Chứng khoán Mỹ biến động

  • VNDirect chốt ngày chi 761 tỷ đồng cổ tức tiền mặt

  • Công ty con, liên kết không được hưởng thuế ưu đãi thu nhập doanh nghiệp

  • Thông qua Luật Công nghiệp công nghệ số: Việt Nam chính thức có khung pháp lý về trí tuệ nhân tạo, hợp pháp hóa tài sản số

  • Reddit kiện Anthropic: Nguy cơ từ dữ liệu AI và quyền riêng tư, làn sóng khởi kiện lan rộng

  • 5 tháng, tăng trưởng tín dụng gấp 2,7 lần cùng kỳ

  • Nam Định 'chốt' đầu tư cảng thủy nội địa 3.400 tỷ đồng lớn nhất tỉnh

  • Quốc hội sửa 11 luật liên quan tới quân sự, quốc phòng

  • Cuộc chiến mạng xã hội AI chính thức bắt đầu

  • Chính phủ yêu cầu cắt giảm thủ tục cấp giấy phép xây dựng tại các khu vực đã có quy hoạch chi tiết 1/500 hoặc đã phê duyệt thiết kế đô thị

  • Dự án Khu du lịch nghỉ dưỡng Phương Thảo của Công ty Lộc Phát Bình Thuận bị thu hồi

  • Nền kinh tế AI Việt Nam ước tính sẽ đạt mốc 130 tỉ USD

  • Xử phạt 80 triệu đồng đối với công ty TNHH Nestlé Việt Nam liên quan sản phẩm sữa Milo

  • Cơn sốt Nvidia lan tỏa khắp châu Âu và thông điệp của Jensen Huang

  • Quốc hội thống nhất thu thuế tiêu thụ đặc biệt với xăng, điều hòa, nước giải khát có đường

  • Trang chủ
  • Tin tức
  • Thị trường
  • Doanh nghiệp
  • Bất động sản
  • Tài chính
  • Thương mại điện tử
  • Thuật ngữ
  • Multimedia
  • Multimedia
Tin tức
Thị trường
Doanh nghiệp
Bất động sản
Tài chính
Thương mại điện tử
Thuật ngữ

Chuẩn bị tung ra mô hình R2, DeepSeek vẫn là 'cơn ác mộng' với các mô hình tiêu tốn nhiều chi phí và tài nguyên tính toán

13:12 |  16/06/2025

DeepSeek chuẩn bị tung ra mô hình R2, trong bối cảnh phải đối mặt với nguy cơ siết chặt hơn nữa các lệnh hạn chế chip từ Mỹ.

DeepSeek chuẩn bị tung ra mô hình R2. (Ảnh: Reuters)

Khi DeepSeek công bố mô hình R1 vào tháng 1 năm nay, đó không chỉ đơn thuần là một bản tin AI mới. Đây là cột mốc quan trọng khiến toàn ngành công nghệ phải chấn động và buộc nhiều ông lớn phải đánh giá lại cách tiếp cận cốt lõi trong phát triển AI. DeepSeek đang đẩy nhanh tiến độ ra mắt mô hình R2, kế nhiệm mô hình R1.

Điều khiến thành tựu của DeepSeek trở nên đặc biệt không nằm ở những khả năng hoàn toàn mới, mà ở cách họ đạt được kết quả tương đương với các “ông lớn” công nghệ phương Tây với chi phí chỉ bằng một phần nhỏ.

Điểm sáng của DeepSeek nằm ở lựa chọn những ưu tiên khác biệt. Kết quả là, ngành AI hiện đang phát triển song song trên hai hướng: hiệu suất tính toán và tối ưu hóa chi phí.

Khi DeepSeek chuẩn bị tung ra mô hình R2, trong bối cảnh phải đối mặt với nguy cơ siết chặt hơn nữa các lệnh hạn chế chip từ Mỹ, câu hỏi đặt ra là: vì sao công ty lại thu hút nhiều sự chú ý đến vậy?

Vượt qua hạn chế về tài nguyên

Sự xuất hiện đầy bất ngờ của DeepSeek đã cho thấy khả năng sáng tạo có thể bùng nổ ngay cả khi bị hạn chế lớn về tài nguyên. Trước các lệnh kiểm soát xuất khẩu của Mỹ, vốn hạn chế quyền tiếp cận những con chip AI tối tân nhất, DeepSeek buộc phải tìm ra những con đường thay thế để tiếp tục phát triển AI.

Trong khi các công ty Mỹ theo đuổi hiệu suất thông qua phần cứng mạnh hơn, mô hình lớn hơn và dữ liệu tốt hơn, DeepSeek lại tập trung vào việc tối ưu những gì sẵn có. Họ triển khai những ý tưởng quen thuộc nhưng với mức độ thực thi vượt trội — và chính sự hoàn thiện trong thực thi này lại trở thành điểm mới.

Cách tiếp cận ưu tiên hiệu quả này đã mang lại những kết quả đầy ấn tượng. Theo các báo cáo, mô hình R1 của DeepSeek có khả năng sánh ngang với OpenAI nhưng chỉ tiêu tốn 5-10% chi phí vận hành.

Chẳng hạn, đợt huấn luyện cuối cùng của mô hình V3 - tiền thân của R1, chỉ tiêu tốn 6 triệu USD, con số mà cựu kỹ sư AI Tesla, Andrej Karpathy, gọi là “một khoản ngân sách như trò đùa” so với hàng trăm triệu USD mà các đối thủ Mỹ bỏ ra.

Đáng chú ý hơn, trong khi OpenAI chi 500 triệu USD để huấn luyện mô hình Orion gần đây, DeepSeek đạt được kết quả thậm chí còn tốt hơn với chi phí chỉ 5,6 triệu USD - chưa đến 1,2% ngân sách của OpenAI.

Tuy nhiên, nếu nghĩ rằng DeepSeek đạt thành tích này hoàn toàn trong thế yếu do thiếu chip AI tiên tiến thì điều đó chưa hoàn toàn chính xác. Các lệnh kiểm soát ban đầu của Mỹ chủ yếu nhắm vào năng lực tính toán (compute), chứ không hạn chế về bộ nhớ và khả năng kết nối mạng - hai yếu tố then chốt giúp DeepSeek vận hành hệ thống hiệu quả.

Nhờ vậy, những con chip mà DeepSeek sử dụng tuy không tối tân nhất về compute nhưng vẫn có khả năng kết nối và bộ nhớ mạnh, cho phép họ song song hóa các tác vụ trên nhiều đơn vị tính toán - một chiến lược quan trọng để vận hành mô hình lớn với chi phí thấp.

Cộng hưởng với nỗ lực làm chủ toàn bộ chuỗi giá trị AI từ phía chính phủ Trung Quốc, DeepSeek đã thúc đẩy tốc độ đổi mới nhanh hơn dự kiến của giới quan sát phương Tây. Thành tựu của họ thực chất chỉ là sự tất yếu trong tiến trình phát triển AI, nhưng DeepSeek đã đẩy nhanh quá trình đó lên trước vài năm - điều mà khó ai có thể làm được.

Mô hình thực dụng hơn

Không chỉ dừng lại ở phần cứng, cách DeepSeek xử lý dữ liệu huấn luyện cũng khác biệt so với thông lệ phương Tây. Thay vì chỉ dựa vào dữ liệu thu thập từ internet, họ tận dụng mạnh mẽ dữ liệu tổng hợp (synthetic data) và đầu ra từ các mô hình độc quyền khác - một hình thức chưng cất mô hình (model distillation).

Cách tiếp cận này tuy mang lại hiệu quả cao về chi phí nhưng cũng đặt ra nhiều câu hỏi về quyền riêng tư dữ liệu, khiến doanh nghiệp phương Tây dè dặt.

Tuy nhiên, việc khai thác dữ liệu tổng hợp có thể tạo ra lợi thế lớn nếu được vận dụng đúng cách. Một số kiến trúc mô hình, như kiến trúc mixture-of-experts (MoE) mà DeepSeek đang sử dụng, có khả năng xử lý dữ liệu tổng hợp tốt hơn, trong khi các mô hình dày đặc truyền thống như Llama đời đầu có nguy cơ bị suy giảm hiệu suất hoặc thậm chí "sụp đổ" khi dùng quá nhiều dữ liệu nhân tạo.

Nguyên nhân nằm ở việc dữ liệu tổng hợp thường mang các mẫu phân phối khác với dữ liệu thực tế, khiến mô hình dễ học lệch hoặc đưa ra các giả định sai lệch nếu không được thiết kế phù hợp.

Tuy nhiên, đội ngũ kỹ sư DeepSeek đã từ đầu xây dựng kiến trúc của mình nhằm tích hợp tối ưu dữ liệu tổng hợp mà vẫn duy trì hiệu suất.

Tác động đến toàn ngành AI

Sự nổi lên của DeepSeek không chỉ là thành tích đơn lẻ mà đã tạo ra những chuyển động chiến lược trên toàn ngành.

Đơn cử, chỉ một tháng sau khi DeepSeek ra mắt, Sam Altman, CEO của OpenAI, thừa nhận OpenAI đã “chọn nhầm phía trong lịch sử” khi kiên trì theo đuổi AI nguồn đóng. Trong bối cảnh OpenAI phải chi tới 7-8 tỷ USD mỗi năm để vận hành, áp lực kinh tế từ những mô hình hiệu quả như DeepSeek ngày càng rõ rệt.

Điều này buộc OpenAI phải gọi vốn khổng lồ lên tới 40 tỷ USD, nâng định giá công ty lên mức chưa từng có: 300 tỷ USD. Thế nhưng, ngay cả khi có thêm tiền, bài toán cốt lõi vẫn còn đó: mô hình của OpenAI tiêu tốn tài nguyên gấp nhiều lần so với cách tiếp cận tiết kiệm của DeepSeek.

Bước tiến trong khả năng tự đánh giá

Một xu hướng quan trọng khác mà DeepSeek đẩy nhanh là “tính toán trong lúc suy luận” (test-time compute). Khi các phòng thí nghiệm AI lớn đã khai thác gần như toàn bộ dữ liệu công khai trên internet, sự khan hiếm dữ liệu làm chậm tốc độ cải thiện mô hình.

Để khắc phục điều đó, DeepSeek hợp tác với Đại học Thanh Hoa triển khai kỹ thuật "tự phê bình nguyên tắc" (Self-Principled Critique Tuning - SPCT), cho phép AI tự xây dựng bộ quy tắc đánh giá nội dung và tự đưa ra phê bình dựa trên những chuẩn mực đó.

Mô hình DeepSeek-GRM (generalist reward modeling) mà họ phát triển đại diện cho xu hướng AI tự đánh giá và tự cải thiện, nhưng cũng đi kèm nhiều rủi ro: các tiêu chuẩn mà AI tự đặt ra có thể lệch khỏi chuẩn mực đạo đức hay bối cảnh thực tế của con người. Nếu không có vòng kiểm soát từ con người, những sai lệch này có thể ngày càng lớn mà người dùng khó lý giải tại sao mô hình lại đưa ra kết quả như vậy.

Dù vậy, mô hình tự phê bình đang nhanh chóng trở thành xu hướng, khi DeepSeek kết hợp nhiều ý tưởng từ các nghiên cứu như "critique and revise" của OpenAI, "Constitutional AI" của Anthropic hay "self-rewarding agents".

Hướng đi mới của ngành AI

Sự trỗi dậy của DeepSeek đang mở ra xu thế phát triển song song trong ngành AI toàn cầu: trong khi một bên tiếp tục xây dựng siêu máy chủ mạnh hơn, bên kia tập trung tối ưu phần mềm và cấu trúc mô hình để giảm thiểu tiêu thụ điện năng - vốn đang vượt xa khả năng sản xuất điện toàn cầu.

Các tập đoàn lớn đã bắt đầu điều chỉnh. Microsoft đã tạm dừng kế hoạch xây thêm trung tâm dữ liệu tại nhiều khu vực, chuyển sang hạ tầng phân tán, hiệu quả hơn dù vẫn dự kiến chi khoảng 80 tỷ USD cho AI trong năm tài khóa này.

Meta cũng nhanh chóng phản ứng, khi đưa kiến trúc MoE lần đầu vào dòng Llama 4 và chủ động so sánh với DeepSeek trong các bảng thử nghiệm hiệu năng.

Chỉ trong thời gian ngắn, thật trớ trêu khi những lệnh cấm vận mà Mỹ ban hành để duy trì vị thế AI lại vô tình thúc đẩy những đổi mới mà họ muốn kìm hãm. Bằng việc hạn chế nguồn lực, DeepSeek buộc phải mở lối đi riêng.

Trong tương lai, khả năng thích ứng sẽ là yếu tố sống còn với tất cả các bên. Dù là dỡ bỏ hay siết chặt thêm các quy định kiểm soát AI, chính cách ngành công nghệ học hỏi và phản ứng lẫn nhau sẽ quyết định cục diện toàn cầu trong cuộc đua AI đang ngày càng nóng lên.

Tung Lam

URL: https://thitruongbiz.vn/chuan-bi-tung-ra-mo-hinh-r2-deepseek-van-la-con-ac-mong-voi-cac-mo-hinh-tieu-ton-nhieu-chi-phi-va-tai-nguyen-tinh-toan-d29102.html

© thitruongbiz.vn

  • Trang chủ
  • Tin tức
  • Thị trường
  • Doanh nghiệp
  • Bất động sản
  • Tài chính
  • Thương mại điện tử
  • Thuật ngữ
  • Multimedia

Giấy phép số 1906/GP-TTĐT do Sở TT&TT TP Hà Nội cấp ngày 23/06/2022.

Chịu trách nhiệm nội dung: Nguyễn Hương Ly

VPĐD: Số 1 ngõ 140 Giảng Võ, Ba Đình, Hà Nội.

Trụ sở: Số 22C ngách 119 ngõ 169 đường Hoàng Mai, Hoàng Văn Thụ, Hoàng Mai, Hà Nội.

Hotline: 0968.532.441

Email: [email protected]

Vận hành bởi: Công ty TNHH Thị Trường Biz.