DeepSeek chuẩn bị tung ra mô hình R2, trong bối cảnh phải đối mặt với nguy cơ siết chặt hơn nữa các lệnh hạn chế chip từ Mỹ.
DeepSeek chuẩn bị tung ra mô hình R2. (Ảnh: Reuters)
Khi DeepSeek công bố mô hình R1 vào tháng 1 năm nay, đó không chỉ đơn thuần là một bản tin AI mới. Đây là cột mốc quan trọng khiến toàn ngành công nghệ phải chấn động và buộc nhiều ông lớn phải đánh giá lại cách tiếp cận cốt lõi trong phát triển AI. DeepSeek đang đẩy nhanh tiến độ ra mắt mô hình R2, kế nhiệm mô hình R1.
Điều khiến thành tựu của DeepSeek trở nên đặc biệt không nằm ở những khả năng hoàn toàn mới, mà ở cách họ đạt được kết quả tương đương với các “ông lớn” công nghệ phương Tây với chi phí chỉ bằng một phần nhỏ.
Điểm sáng của DeepSeek nằm ở lựa chọn những ưu tiên khác biệt. Kết quả là, ngành AI hiện đang phát triển song song trên hai hướng: hiệu suất tính toán và tối ưu hóa chi phí.
Khi DeepSeek chuẩn bị tung ra mô hình R2, trong bối cảnh phải đối mặt với nguy cơ siết chặt hơn nữa các lệnh hạn chế chip từ Mỹ, câu hỏi đặt ra là: vì sao công ty lại thu hút nhiều sự chú ý đến vậy?
Vượt qua hạn chế về tài nguyên
Sự xuất hiện đầy bất ngờ của DeepSeek đã cho thấy khả năng sáng tạo có thể bùng nổ ngay cả khi bị hạn chế lớn về tài nguyên. Trước các lệnh kiểm soát xuất khẩu của Mỹ, vốn hạn chế quyền tiếp cận những con chip AI tối tân nhất, DeepSeek buộc phải tìm ra những con đường thay thế để tiếp tục phát triển AI.
Trong khi các công ty Mỹ theo đuổi hiệu suất thông qua phần cứng mạnh hơn, mô hình lớn hơn và dữ liệu tốt hơn, DeepSeek lại tập trung vào việc tối ưu những gì sẵn có. Họ triển khai những ý tưởng quen thuộc nhưng với mức độ thực thi vượt trội — và chính sự hoàn thiện trong thực thi này lại trở thành điểm mới.
Cách tiếp cận ưu tiên hiệu quả này đã mang lại những kết quả đầy ấn tượng. Theo các báo cáo, mô hình R1 của DeepSeek có khả năng sánh ngang với OpenAI nhưng chỉ tiêu tốn 5-10% chi phí vận hành.
Chẳng hạn, đợt huấn luyện cuối cùng của mô hình V3 - tiền thân của R1, chỉ tiêu tốn 6 triệu USD, con số mà cựu kỹ sư AI Tesla, Andrej Karpathy, gọi là “một khoản ngân sách như trò đùa” so với hàng trăm triệu USD mà các đối thủ Mỹ bỏ ra.
Đáng chú ý hơn, trong khi OpenAI chi 500 triệu USD để huấn luyện mô hình Orion gần đây, DeepSeek đạt được kết quả thậm chí còn tốt hơn với chi phí chỉ 5,6 triệu USD - chưa đến 1,2% ngân sách của OpenAI.
Tuy nhiên, nếu nghĩ rằng DeepSeek đạt thành tích này hoàn toàn trong thế yếu do thiếu chip AI tiên tiến thì điều đó chưa hoàn toàn chính xác. Các lệnh kiểm soát ban đầu của Mỹ chủ yếu nhắm vào năng lực tính toán (compute), chứ không hạn chế về bộ nhớ và khả năng kết nối mạng - hai yếu tố then chốt giúp DeepSeek vận hành hệ thống hiệu quả.
Nhờ vậy, những con chip mà DeepSeek sử dụng tuy không tối tân nhất về compute nhưng vẫn có khả năng kết nối và bộ nhớ mạnh, cho phép họ song song hóa các tác vụ trên nhiều đơn vị tính toán - một chiến lược quan trọng để vận hành mô hình lớn với chi phí thấp.
Cộng hưởng với nỗ lực làm chủ toàn bộ chuỗi giá trị AI từ phía chính phủ Trung Quốc, DeepSeek đã thúc đẩy tốc độ đổi mới nhanh hơn dự kiến của giới quan sát phương Tây. Thành tựu của họ thực chất chỉ là sự tất yếu trong tiến trình phát triển AI, nhưng DeepSeek đã đẩy nhanh quá trình đó lên trước vài năm - điều mà khó ai có thể làm được.
Mô hình thực dụng hơn
Không chỉ dừng lại ở phần cứng, cách DeepSeek xử lý dữ liệu huấn luyện cũng khác biệt so với thông lệ phương Tây. Thay vì chỉ dựa vào dữ liệu thu thập từ internet, họ tận dụng mạnh mẽ dữ liệu tổng hợp (synthetic data) và đầu ra từ các mô hình độc quyền khác - một hình thức chưng cất mô hình (model distillation).
Cách tiếp cận này tuy mang lại hiệu quả cao về chi phí nhưng cũng đặt ra nhiều câu hỏi về quyền riêng tư dữ liệu, khiến doanh nghiệp phương Tây dè dặt.
Tuy nhiên, việc khai thác dữ liệu tổng hợp có thể tạo ra lợi thế lớn nếu được vận dụng đúng cách. Một số kiến trúc mô hình, như kiến trúc mixture-of-experts (MoE) mà DeepSeek đang sử dụng, có khả năng xử lý dữ liệu tổng hợp tốt hơn, trong khi các mô hình dày đặc truyền thống như Llama đời đầu có nguy cơ bị suy giảm hiệu suất hoặc thậm chí "sụp đổ" khi dùng quá nhiều dữ liệu nhân tạo.
Nguyên nhân nằm ở việc dữ liệu tổng hợp thường mang các mẫu phân phối khác với dữ liệu thực tế, khiến mô hình dễ học lệch hoặc đưa ra các giả định sai lệch nếu không được thiết kế phù hợp.
Tuy nhiên, đội ngũ kỹ sư DeepSeek đã từ đầu xây dựng kiến trúc của mình nhằm tích hợp tối ưu dữ liệu tổng hợp mà vẫn duy trì hiệu suất.
Tác động đến toàn ngành AI
Sự nổi lên của DeepSeek không chỉ là thành tích đơn lẻ mà đã tạo ra những chuyển động chiến lược trên toàn ngành.
Đơn cử, chỉ một tháng sau khi DeepSeek ra mắt, Sam Altman, CEO của OpenAI, thừa nhận OpenAI đã “chọn nhầm phía trong lịch sử” khi kiên trì theo đuổi AI nguồn đóng. Trong bối cảnh OpenAI phải chi tới 7-8 tỷ USD mỗi năm để vận hành, áp lực kinh tế từ những mô hình hiệu quả như DeepSeek ngày càng rõ rệt.
Điều này buộc OpenAI phải gọi vốn khổng lồ lên tới 40 tỷ USD, nâng định giá công ty lên mức chưa từng có: 300 tỷ USD. Thế nhưng, ngay cả khi có thêm tiền, bài toán cốt lõi vẫn còn đó: mô hình của OpenAI tiêu tốn tài nguyên gấp nhiều lần so với cách tiếp cận tiết kiệm của DeepSeek.
Bước tiến trong khả năng tự đánh giá
Một xu hướng quan trọng khác mà DeepSeek đẩy nhanh là “tính toán trong lúc suy luận” (test-time compute). Khi các phòng thí nghiệm AI lớn đã khai thác gần như toàn bộ dữ liệu công khai trên internet, sự khan hiếm dữ liệu làm chậm tốc độ cải thiện mô hình.
Để khắc phục điều đó, DeepSeek hợp tác với Đại học Thanh Hoa triển khai kỹ thuật "tự phê bình nguyên tắc" (Self-Principled Critique Tuning - SPCT), cho phép AI tự xây dựng bộ quy tắc đánh giá nội dung và tự đưa ra phê bình dựa trên những chuẩn mực đó.
Mô hình DeepSeek-GRM (generalist reward modeling) mà họ phát triển đại diện cho xu hướng AI tự đánh giá và tự cải thiện, nhưng cũng đi kèm nhiều rủi ro: các tiêu chuẩn mà AI tự đặt ra có thể lệch khỏi chuẩn mực đạo đức hay bối cảnh thực tế của con người. Nếu không có vòng kiểm soát từ con người, những sai lệch này có thể ngày càng lớn mà người dùng khó lý giải tại sao mô hình lại đưa ra kết quả như vậy.
Dù vậy, mô hình tự phê bình đang nhanh chóng trở thành xu hướng, khi DeepSeek kết hợp nhiều ý tưởng từ các nghiên cứu như "critique and revise" của OpenAI, "Constitutional AI" của Anthropic hay "self-rewarding agents".
Hướng đi mới của ngành AI
Sự trỗi dậy của DeepSeek đang mở ra xu thế phát triển song song trong ngành AI toàn cầu: trong khi một bên tiếp tục xây dựng siêu máy chủ mạnh hơn, bên kia tập trung tối ưu phần mềm và cấu trúc mô hình để giảm thiểu tiêu thụ điện năng - vốn đang vượt xa khả năng sản xuất điện toàn cầu.
Các tập đoàn lớn đã bắt đầu điều chỉnh. Microsoft đã tạm dừng kế hoạch xây thêm trung tâm dữ liệu tại nhiều khu vực, chuyển sang hạ tầng phân tán, hiệu quả hơn dù vẫn dự kiến chi khoảng 80 tỷ USD cho AI trong năm tài khóa này.
Meta cũng nhanh chóng phản ứng, khi đưa kiến trúc MoE lần đầu vào dòng Llama 4 và chủ động so sánh với DeepSeek trong các bảng thử nghiệm hiệu năng.
Chỉ trong thời gian ngắn, thật trớ trêu khi những lệnh cấm vận mà Mỹ ban hành để duy trì vị thế AI lại vô tình thúc đẩy những đổi mới mà họ muốn kìm hãm. Bằng việc hạn chế nguồn lực, DeepSeek buộc phải mở lối đi riêng.
Trong tương lai, khả năng thích ứng sẽ là yếu tố sống còn với tất cả các bên. Dù là dỡ bỏ hay siết chặt thêm các quy định kiểm soát AI, chính cách ngành công nghệ học hỏi và phản ứng lẫn nhau sẽ quyết định cục diện toàn cầu trong cuộc đua AI đang ngày càng nóng lên.
Google đang tiến hành một cuộc cải tổ lớn đối với nền tảng học tập nội bộ nổi tiếng của mình, với mục tiêu đào tạo nhân viên sử dụng các công cụ trí tuệ nhân tạo (AI) hiện đại trong công việc hàng ngày, theo CNBC.
Với 2 phương án phát hành cổ phiếu Nhà Khang Điền sẽ tăng số lượng cổ phiếu đang lưu hành lên mức 1,12 tỷ cổ phiếu, tương đương vốn điều lệ 11.222,1 tỷ đồng.
Reddit vừa khởi kiện Anthropic - công ty đứng sau chatbot Claude AI - với cáo buộc thu thập trái phép hơn 100.000 bài đăng và bình luận của người dùng để huấn luyện mô hình ngôn ngữ lớn (LLM) của mình.
Cuộc đua giữa các ông lớn công nghệ trong lĩnh vực mạng xã hội ứng dụng trí tuệ nhân tạo (AI) đang bước vào giai đoạn gay cấn. Trong khi OpenAI của Sam Altman chuẩn bị tung ra nền tảng đối trọng với X (Twitter cũ), Meta của Mark Zuckerberg lại nỗ lực tích hợp AI vào mọi sản phẩm, tạo nên một cuộc chiến mới về quyền lực dữ liệu và trải nghiệm người dùng trên mạng xã hội, theo chuyên trang công nghệ Freethink.
Trong tuần qua, Giám đốc điều hành Nvidia - Jensen Huang đã thực hiện chuyến công du châu Âu, mang theo sự hào hứng và tò mò đến mọi nơi ông ghé thăm. Thông điệp mà ông nhấn mạnh rất rõ ràng: Nvidia chính là công ty có thể giúp châu Âu xây dựng hạ tầng trí tuệ nhân tạo (AI), từ đó nắm quyền chủ động trong kỷ nguyên công nghệ đầy biến động này.
Theo tài liệu Đại hội đồng cổ đông thường niên năm 2025, Đầu tư I.P.A công bố Đại hội dự kiến tổ chức ngày 24/6 tại Hà Nội. Trong đó, Đầu tư I.P.A trình cổ đông không trả cổ tức cho cổ đông trong năm 2024, đồng thời công bố đơn xin từ nhiệm chức danh Thành viên HĐQT của bà Nguyễn Ngọc Thanh.
Bộ Xây dựng đã chính thức cấp giấy phép kinh doanh vận chuyển hàng không cho Công ty TNHH Mặt trời Phú Quốc – chủ sở hữu thương hiệu Sun PhuQuoc Airways (SPA).
Hội đồng Quản trị Tổng CTCP Bảo hiểm Petrolimex (PJICO, mã chứng khoán PGI) vừa ban hành Nghị quyết số 18/2025/PJICO/NQ-HĐQT về việc bổ nhiệm ông Trần Anh Tuấn giữ chức vụ Tổng giám đốc Tổng công ty, nhiệm kỳ 5 năm, bắt đầu từ ngày 16/6/2025.
Ngày 12/6, dịch vụ điện toán đám mây của Google - Google Cloud, gặp sự cố gián đoạn nghiêm trọng trên phạm vi toàn cầu, khiến nhiều dịch vụ Internet lớn bị ngưng trệ hoặc hoạt động không ổn định.
Meta, công ty mẹ của Facebook, đã chính thức hoàn tất thương vụ mua lại 49% cổ phần của startup chuyên gắn nhãn dữ liệu Scale AI với giá trị 14,3 tỷ USD, theo Reuters.
CTCP Tư vấn - Thương mại - Dịch vụ Địa ốc Hoàng Quân (HoSE: mã chứng khoán HQC) vừa công bố thông tin giao dịch cổ phiếu của Chủ tịch HĐQT, ông Trương Anh Tuấn.
Meta vừa mới công bố một mô hình AI mới mang tên V-JEPA 2, được thiết kế để hiểu rõ hơn về môi trường 3D và chuyển động của các vật thể vật lý. Google thông báo đã bổ sung một vị trí lãnh đạo mới là Kiến trúc sư trưởng AI nhằm đẩy nhanh các sản phẩm AI cạnh tranh.
Chủ tịch HĐQT Phạm Nhật Vượng đã báo cáo hoàn tất giao dịch chuyển quyền sở hữu hơn 48 triệu cổ phiếu Vingroup (VIC), tương ứng 1,24% vốn Vingroup để góp vốn vào VinSpeed.
Phó thủ tướng Trần Hồng Hà đồng ý với kiến nghị của Bộ Xây dựng về việc cho phép bộ này cấp giấy phép kinh doanh vận chuyển hàng không cho Công ty TNHH Hàng không Mặt trời Phú Quốc (Sun PhuQuoc Airways).
Sáng 11/6 theo giờ địa phương (chiều cùng ngày theo giờ Hà Nội), tại Paris, trong chương trình hoạt động song phương tại Cộng hòa Pháp, Thủ tướng Phạm Minh Chính đã tiếp lãnh đạo một số tập đoàn, doanh nghiệp hàng đầu của Pháp và châu Âu, trong đó có tập đoàn Alstom trong lĩnh vực giao thông vận tải.
Chủ tịch Tập đoàn Toyota, ông Akio Toyoda, nhiều khả năng sẽ phải đối mặt với những câu hỏi khó liên quan đến thương vụ tư nhân hóa trị giá 33 tỷ USD đối với một nhà cung cấp chủ chốt tại đại hội cổ đông thường niên của hãng ô tô Nhật Bản diễn ra vào thứ Năm tuần này.
Disney và Universal đồng loạt khởi kiện công ty tạo ảnh trí tuệ nhân tạo Midjourney với cáo buộc vi phạm bản quyền. Động thái này đánh dấu vụ kiện bản quyền AI đầu tiên do các “ông lớn” Hollywood khởi xướng.
CTCP Chứng khoán Kỹ Thương (TCBS) vừa báo cáo kết quả đợt chào bán hơn 118,8 triệu cổ phiếu riêng lẻ với quy mô hơn 1.188 tỷ đồng. Sau đợt chào bán, vốn điều lệ của TCBS nâng từ 19.613 tỷ đồng lên gần 20.802 tỷ đồng, qua đó trở thành công ty có vốn cao nhất ngành chứng khoán.
Tại ĐHĐCĐ thường niên 2025, HĐQT Viglacera họp bầu ông Trần Mạnh Hữu là Chủ tịch HĐQT Viglacera nhiệm kỳ 2024 – 2029 thay thế cho ông Nguyễn Văn Tuấn, người đã có đơn xin từ nhiệm trước đó.
ACV là viết tắt của Airports Corporation of Vietnam tên giao dịch quốc tế của Tổng công ty Cảng hàng không Việt Nam - CTCP trên cơ sở hợp nhất 3 tổng công ty. ACV được giao quản lý, điều phối hoạt động và đầu tư khai thác toàn bộ hệ thống 22 cảng hàng không trên toàn lãnh thổ Việt Nam bao gồm 9 sân bay quốc tế và 13 sân bay nội địa.
Công ty CP Vietcap đứng vị trí 196 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Chứng khoán Vietcap là gì? Công ty CP Vietcap uy tín không? Có nên mở tài khoản tại chứng khoán Bản Việt không?
Công ty TNHH Thương mại và Công nghiệp Mỹ Việt đứng ở vị trí số 195 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Công ty TNHH Thương mại và Công nghiệp Mỹ Việt kinh doanh gì? Tấm lợp Olympic có tốt không?
ACV là viết tắt của Airports Corporation of Vietnam tên giao dịch quốc tế của Tổng công ty Cảng hàng không Việt Nam - CTCP trên cơ sở hợp nhất 3 tổng công ty. ACV được giao quản lý, điều phối hoạt động và đầu tư khai thác toàn bộ hệ thống 22 cảng hàng không trên toàn lãnh thổ Việt Nam bao gồm 9 sân bay quốc tế và 13 sân bay nội địa.
Công ty CP Vietcap đứng vị trí 196 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Chứng khoán Vietcap là gì? Công ty CP Vietcap uy tín không? Có nên mở tài khoản tại chứng khoán Bản Việt không?
Công ty TNHH Thương mại và Công nghiệp Mỹ Việt đứng ở vị trí số 195 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Công ty TNHH Thương mại và Công nghiệp Mỹ Việt kinh doanh gì? Tấm lợp Olympic có tốt không?