OpenAI và các công ty công nghệ trí tuệ nhân tạo (công nghệ AI) khác đang tìm kiếm con đường mới để phát triển AI thông minh hơn khi các phương pháp hiện tại đạt tới giới hạn
Các công ty công nghệ AI như OpenAI đang tìm cách vượt qua những thách thức và hạn chế hiện tại của AI trong quá trình phát triển các mô hình ngôn ngữ lớn. Các phương pháp thử nghiệm mới bao gồm việc phát triển các kỹ thuật huấn luyện, sử dụng phương pháp tư duy gần giống với cách suy nghĩ của con người.
Theo chia sẻ từ một tá nhà khoa học AI, nhà nghiên cứu và nhà đầu tư với Reuters, họ tin rằng nền tảng của mô hình O1 mà OpenAI vừa ra mắt có tiềm năng thay đổi cuộc "chạy đua" công nghệ về AI và tạo ra những ảnh hưởng đáng kể đến các nguồn tài nguyên mà các công ty AI đang khao khát, từ năng lượng cho đến loại chip sử dụng.
OpenAI từ chối bình luận về chủ đề này. Kể từ khi ChatGPT trở thành hiện tượng hai năm trước, các công ty công nghệ đã công khai ủng hộ việc "mở rộng quy mô" các mô hình AI bằng cách tăng thêm dữ liệu và tăng sức mạnh tính toán để không ngừng cải thiện mô hình AI. Tuy nhiên, giờ đây, nhiều nhà khoa học AI hàng đầu đang lên tiếng về những giới hạn của triết lý "càng lớn càng tốt".
Ilya Sutskever, đồng sáng lập các phòng thí nghiệm AI như Safe Superintelligence (SSI) và OpenAI, gần đây đã chia sẻ với Reuters rằng kết quả từ việc mở rộng quy mô giai đoạn huấn luyện sơ bộ (pre-training) – giai đoạn huấn luyện một mô hình AI sử dụng lượng lớn dữ liệu không có nhãn để hiểu các mẫu ngôn ngữ – đang dần đạt tới điểm bão hòa.
Sutskever là một trong những người tiên phong ủng hộ ý tưởng đạt được những bước tiến vượt bậc trong AI bằng cách sử dụng nhiều dữ liệu và sức mạnh tính toán hơn trong giai đoạn huấn luyện sơ bộ, phương pháp đã tạo ra ChatGPT. Sutskever đã rời OpenAI đầu năm nay để thành lập SSI.
Thập niên 2010 là thời đại của mở rộng quy mô, còn giờ đây chúng ta đang trở lại thời đại của sự tò mò và khám phá. Giờ đây, việc mở rộng quy mô đúng hướng mới là quan trọng hơn bao giờ hết.
Sutskever từ chối chia sẻ chi tiết về cách nhóm của ông đang giải quyết vấn đề này, chỉ cho biết rằng SSI đang nghiên cứu một phương pháp thay thế để phát triển quá trình huấn luyện sơ bộ.
Đằng sau "hậu trường", các nhà nghiên cứu tại các phòng thí nghiệm AI hàng đầu đang đối mặt với các giới hạn và kết quả không như mong đợi trong cuộc đua phát triển một mô hình ngôn ngữ lớn hơn, vượt trội hơn GPT-4 của OpenAI. Mô hình hiện đã ra mắt gần hai năm.
Các cuộc huấn luyện cho các mô hình lớn có thể tốn hàng chục triệu đô la vì phải chạy đồng thời hàng trăm con chip. Những hệ thống phức tạp như vậy dễ gặp lỗi phần cứng. Các nhà nghiên cứu có thể không biết rõ hiệu suất cuối cùng của mô hình cho đến khi quá trình chạy hoàn tất, có thể mất vài tháng.
Một vấn đề khác là các mô hình ngôn ngữ lớn tiêu thụ khối lượng dữ liệu khổng lồ, và các nguồn dữ liệu dễ tiếp cận trên thế giới dường như đã cạn kiệt. Thiếu hụt điện năng cũng cản trở các lần huấn luyện, vì quá trình này đòi hỏi năng lượng rất lớn.
Để khắc phục những thách thức này, các nhà nghiên cứu đang khám phá kỹ thuật “tính toán thời gian thử nghiệm,” một phương pháp cải thiện các mô hình AI hiện có trong giai đoạn “suy luận”. Ví dụ, thay vì chọn ngay một câu trả lời duy nhất, mô hình có thể tạo ra và đánh giá nhiều phương án cùng lúc và cuối cùng chọn ra hướng đi tốt nhất.
Phương pháp này cho phép mô hình dành nhiều sức mạnh xử lý hơn cho các nhiệm vụ khó như toán học, lập trình hoặc các thao tác phức tạp đòi hỏi khả năng suy luận và ra quyết định tương tự con người.
Mất chỉ 20 giây suy nghĩ trong một ván poker cũng đã cải thiện hiệu suất ngang bằng với việc tăng quy mô mô hình lên gấp 100.000 lần và huấn luyện trong thời gian dài gấp 100.000 lần.
OpenAI đã áp dụng kỹ thuật này trong mô hình mới của mình, có tên là “O1” (trước đây gọi là Q* và Strawberry), mà Reuters đã đưa tin vào tháng 7. Mô hình O1 có khả năng “suy nghĩ” qua các vấn đề theo cách nhiều bước, tương tự như suy luận của con người. Mô hình cũng sử dụng dữ liệu và phản hồi từ các chuyên gia và tiến sĩ. Điểm độc đáo của loạt mô hình O1 là thêm một lớp huấn luyện bổ sung trên các mô hình “cơ bản” như GPT-4, và công ty cho biết họ dự định áp dụng kỹ thuật này với nhiều mô hình cơ bản lớn hơn nữa.
Trong khi đó, các nhà nghiên cứu tại những phòng thí nghiệm AI hàng đầu khác, bao gồm Anthropic, xAI và Google DeepMind, cũng đang phát triển các phiên bản kỹ thuật riêng của mình, theo năm nguồn tin am hiểu về những nỗ lực này.
“Chúng tôi nhận thấy có rất nhiều tiềm năng để cải thiện các mô hình này một cách nhanh chóng,” Kevin Weil, Giám đốc sản phẩm tại OpenAI, phát biểu tại một hội nghị công nghệ vào tháng 10. “Khi mọi người bắt kịp, chúng tôi sẽ cố gắng tiến xa hơn ba bước nữa.”
Google và xAI không phản hồi yêu cầu bình luận, trong khi Anthropic cũng chưa có phản hồi ngay lập tức. Những tác động từ sự chuyển đổi này có thể thay đổi cán cân cạnh tranh trong lĩnh vực phần cứng AI, lĩnh vực vốn đang bị chi phối bởi nhu cầu không ngừng đối với chip AI của Nvidia.
Các nhà đầu tư mạo hiểm nổi tiếng, từ Sequoia đến Andreessen Horowitz, đã đầu tư hàng tỷ đô la để phát triển các mô hình AI tại nhiều phòng thí nghiệm như OpenAI và xAI, cũng đang theo dõi sát sao sự chuyển đổi này và cân nhắc tác động đến các khoản đầu tư của họ.
Sự chuyển đổi này sẽ đưa chúng ta từ thế giới của những hệ thống máy chủ huấn luyện khổng lồ sang các hệ thống đám mây suy luận phân tán, hiểu đơn giản là các hệ thống máy chủ đám mây dành cho suy luận.
Nhu cầu về chip AI của Nvidia, loại chip tiên tiến nhất hiện nay, đã giúp công ty này trở thành công ty có giá trị lớn nhất thế giới, vượt qua Apple vào tháng 10. Khác với chip dùng cho huấn luyện, nơi Nvidia thống lĩnh thị trường, công ty có thể đối mặt với sự cạnh tranh cao hơn trong thị trường chip suy luận.
Khi được hỏi về tác động tiềm năng đối với nhu cầu sản phẩm của mình, Nvidia đã chỉ đến các buổi thuyết trình gần đây của công ty về tầm quan trọng của kỹ thuật đằng sau mô hình o1. CEO Jensen Huang của công ty cũng đã nhắc đến nhu cầu ngày càng tăng đối với việc sử dụng chip của Nvidia cho các tác vụ suy luận.
“Chúng tôi đã khám phá ra một quy luật mở rộng thứ hai, và đây là quy luật mở rộng trong thời kỳ suy luận… Tất cả những yếu tố này đã dẫn đến nhu cầu về chip Blackwell đang ở mức cực kỳ cao,” Huang nói vào tháng trước tại một hội nghị ở Ấn Độ, đề cập đến dòng chip AI mới nhất của Nvidia.
URL: https://thitruongbiz.vn/cong-nghe-ai-cham-gioi-han-buoc-openai-phai-tim-cach-dot-pha-d26100.html
© thitruongbiz.vn