Reddit vừa khởi kiện Anthropic - công ty đứng sau chatbot Claude AI - với cáo buộc thu thập trái phép hơn 100.000 bài đăng và bình luận của người dùng để huấn luyện mô hình ngôn ngữ lớn (LLM) của mình.
Reddit vừa khởi kiện Anthropic - công ty đứng sau chatbot Claude AI, vi phạm bản quyền. (Ảnh: Getty Images)
Anthropic bị tố vượt qua các biện pháp bảo vệ kỹ thuật của Reddit
Vụ kiện được đệ trình tại tòa án bang California, tập trung vào cáo buộc rằng Anthropic đã thực hiện hơn 100.000 yêu cầu trái phép tới máy chủ của Reddit để thu thập bài viết, bình luận và các nội dung khác mà không có sự cho phép.
Reddit cho biết điều này diễn ra bất chấp việc Anthropic trước đó từng công khai khẳng định đã chấm dứt các hành động thu thập dữ liệu như vậy.
Hiện Reddit đã ký kết các thỏa thuận cấp phép với nhiều tập đoàn công nghệ lớn, trong đó có OpenAI (cha đẻ của ChatGPT) và Alphabet (công ty mẹ của Google). Các thỏa thuận này đều có điều khoản quy định rõ về việc sử dụng nội dung, bảo vệ quyền riêng tư người dùng và quy trình xóa dữ liệu.
Tuy nhiên, theo Reuters, trong đơn kiện, Reddit cáo buộc Anthropic đã cố tình phớt lờ tệp robots.txt - một giao thức tiêu chuẩn giúp website chỉ định những khu vực mà các công cụ thu thập dữ liệu (web crawler, bot) không được phép truy cập.
Theo CEO Reddit, ông Steve Huffman, robots.txt hoạt động như một “tấm biển cấm xâm nhập” trên không gian số dành cho các phần mềm tự động.
Reddit cáo buộc Anthropic đã bỏ qua lệnh hạn chế này và vi phạm điều khoản dịch vụ bằng cách thu thập nội dung người dùng mà không có sự đồng ý. Đáng chú ý, đơn kiện cho rằng Anthropic thậm chí còn lấy cả các bài viết đã bị xóa, làm dấy lên lo ngại nghiêm trọng về quyền riêng tư cũng như cách công ty này lưu trữ dữ liệu người dùng.
Reddit cũng cho biết đã từng đề nghị Anthropic ký thỏa thuận cấp phép chính thức, nhưng Anthropic từ chối và chọn cách tự ý thu thập dữ liệu trực tiếp từ nền tảng. Cách làm này giúp Anthropic tránh phải trả phí cấp phép đồng thời né các biện pháp bảo vệ người dùng mà Reddit đã thiết lập.
Nguồn gốc tranh cãi: Reddit là “mỏ dữ liệu” huấn luyện AI
Trong đơn kiện, Reddit dẫn lại một nghiên cứu khoa học năm 2021 mà CEO Anthropic - ông Dario Amodei - đồng tác giả, trong đó nhấn mạnh Reddit là nguồn dữ liệu huấn luyện ngôn ngữ có giá trị cao.
Trước khi đồng sáng lập Anthropic, ông Dario Amodei từng giữ vị trí Phó Chủ tịch nghiên cứu tại OpenAI.
Reddit đưa ra bằng chứng cho thấy Claude đã tái tạo lại các bài đăng trên Reddit với độ chính xác gần như tuyệt đối.
Reddit đưa ra bằng chứng cho thấy Claude - chatbot của Anthropic, đã tái tạo lại các bài đăng trên Reddit với độ chính xác gần như tuyệt đối, bao gồm cả những nội dung mà người dùng sau đó đã xóa khỏi nền tảng.
Theo Reddit, điều này cho thấy Anthropic đã không thực hiện đầy đủ các biện pháp cần thiết nhằm bảo vệ quyền riêng tư người dùng cũng như xử lý các yêu cầu gỡ bỏ nội dung.
Reddit lập luận rằng hành động của Anthropic đã vi phạm nguyên tắc cạnh tranh lành mạnh khi thu thập dữ liệu từ nền tảng mà không bồi thường tài chính, trong khi các đối thủ khác đã phải trả phí cấp phép để có quyền truy cập tương tự.
Trái với những gì được quảng bá, Anthropic hoàn toàn phớt lờ các quy định và người dùng của Reddit. Họ tin rằng mình có quyền lấy bất cứ nội dung gì và sử dụng theo bất kỳ cách nào mà không phải chịu trách nhiệm.
Vì vậy, Reddit yêu cầu bồi thường thiệt hại tài chính và đề nghị tòa án ra lệnh cấm Anthropic tiếp tục sử dụng nội dung từ Reddit trong việc đào tạo hay phát triển các mô hình AI trong tương lai.
Các điểm chính: - Reddit kiện Anthropic vì cáo buộc thu thập hơn 100.000 bài viết và bình luận người dùng mà không được phép để huấn luyện AI. - Reddit cho rằng Anthropic đã vượt qua các biện pháp bảo vệ kỹ thuật, vi phạm điều khoản dịch vụ và từ chối ký thỏa thuận cấp phép chính thức. - Vụ kiện phản ánh những căng thẳng rộng hơn trong ngành AI về quyền dữ liệu, quyền riêng tư người dùng và phát triển AI có đạo đức. - Reddit lập luận rằng hành vi thu thập dữ liệu trái phép làm suy yếu mô hình kinh doanh của công ty và phá vỡ niềm tin của người dùng.
Tiền lệ tranh chấp bản quyền của Anthropic
Đây không phải là lần đầu tiên Anthropic vướng vào các tranh chấp liên quan đến việc thu thập dữ liệu. Hồi tháng 8/2024, một nhóm tác giả đã đệ đơn kiện tập thể cáo buộc Anthropic sử dụng sách có bản quyền mà không xin phép để đào tạo mô hình AI.
Nhóm tác giả yêu cầu được bồi thường cho việc sử dụng trái phép tác phẩm của họ.
Ngoài ra, vào tháng 10/2023, Universal Music Group cùng nhiều nhà xuất bản âm nhạc khác cũng kiện Anthropic với cáo buộc Claude tái tạo lời bài hát có bản quyền mà không được phép.
Các công ty âm nhạc cho rằng điều này xâm phạm quyền sở hữu trí tuệ của họ và yêu cầu tòa án cấm Anthropic tiếp tục sử dụng các nội dung đó.
Tuy nhiên, vụ kiện lần này của Reddit khác với các vụ kiện bản quyền trước đó ở chỗ tập trung vào hành vi vi phạm hợp đồng và cạnh tranh không công bằng, hơn là vi phạm quyền sở hữu trí tuệ.
Làn sóng khởi kiện các công ty AI đang gia tăng, phản ánh những căng thẳng rộng hơn trong ngành AI về quyền dữ liệu, quyền riêng tư người dùng và phát triển AI có đạo đức. (Ảnh minh họa)
Reddit lập luận rằng các nội dung do người dùng tạo ra trên nền tảng vẫn chịu sự điều chỉnh của điều khoản dịch vụ mà Anthropic đã cố tình vi phạm.
Về phía mình, người phát ngôn của Anthropic cho biết công ty không đồng tình với các cáo buộc của Reddit và sẽ kiên quyết tự bảo vệ trước pháp lý. Tuy nhiên, Anthropic chưa đưa ra phản hồi chi tiết về từng cáo buộc cụ thể.
Những hệ lụy lớn hơn trong ngành AI
Cuộc tranh chấp pháp lý này phản ánh những mâu thuẫn ngày càng gia tăng trong ngành AI liên quan đến việc thu thập dữ liệu huấn luyện.
Khi các công ty AI ngày càng cần những bộ dữ liệu khổng lồ để phát triển mô hình cạnh tranh, các tranh chấp về quyền dữ liệu và quyền sử dụng nội dung cũng ngày càng xuất hiện nhiều hơn.
Hoạt động web scraping - tức tự động trích xuất dữ liệu từ website, hiện vẫn nằm trong vùng xám pháp lý.
Mặc dù nhiều thông tin công khai có thể dễ dàng truy cập, nhưng các điều khoản dịch vụ và giới hạn kỹ thuật có thể đặt ra những ranh giới pháp lý rõ ràng cho việc thu thập dữ liệu.
Vụ kiện lần này làm nổi bật sự mâu thuẫn giữa các cam kết đạo đức mà Anthropic công bố và những gì Reddit cáo buộc là thực tế hoạt động thu thập dữ liệu không minh bạch.
Reddit cho rằng các tuyên bố này có thể gây hiểu lầm cho người dùng cũng như các đối thủ cạnh tranh về cách Anthropic thực sự thu thập dữ liệu.
Trước tình trạng tác động môi trường từ các trung tâm dữ liệu và máy chủ ngày càng gia tăng do tăng trưởng kinh tế và những tiến bộ công nghệ như trí tuệ nhân tạo (AI), Chương trình Môi trường Liên Hợp Quốc (UNEP) hôm nay đã công bố bộ Hướng dẫn mua sắm bền vững cho trung tâm dữ liệu và máy chủ, nhằm giúp chính phủ và các cơ quan chức năng cắt giảm mức tiêu thụ điện năng và nước tại các cơ sở này.
Theo đó, vốn điều lệ của Công ty mẹ - VEC được phê duyệt đến hết năm 2026 là 39.366 tỷ đồng, tăng 38.251 tỷ đồng so với mức vốn điều lệ đã được phê duyệt đến năm 2023.
CTCP Phát triển Bất động sản Phát Đạt (HoSE: mã chứng khoán PDR) công bố thông tin về ứng viên Thành viên độc lập HĐQT do Chủ tịch Nguyễn Văn Đạt đề cử.
CTCP Tập đoàn Lộc Trời (LTG) sẽ trình lên ĐHĐCĐ thường niên 2025 diễn ra ngày 14/7 tới đây kế hoạch kinh doanh dự kiến thua lỗ và xin hủy phương án chi trả cổ tức năm 2023.
Ban lãnh đạo OpenAI hiện đang bàn bạc về khả năng cáo buộc Microsoft - nhà đầu tư lớn nhất của mình, có hành vi cạnh tranh không lành mạnh trong quá trình hợp tác giữa hai bên.
Sở Giao dịch Chứng khoán TP HCM (HoSE) đã nhận hồ sơ đăng ký niêm yết gần 24 triệu cổ phiếu Công ty cổ phần Khu công nghiệp Nam Tân Uyên (mã chứng khoán NTC: UPCoM).
CTCP Tập đoàn Đầu tư Địa ốc No Va (Novaland, HoSE: mã chứng khoán NVL) vừa thông qua nghị quyết của Hội đồng quản trị về kế hoạch tổ chức ĐHĐCĐ bất thường vào đầu tháng 8 tới đây.
Với 2 phương án phát hành cổ phiếu Nhà Khang Điền sẽ tăng số lượng cổ phiếu đang lưu hành lên mức 1,12 tỷ cổ phiếu, tương đương vốn điều lệ 11.222,1 tỷ đồng.
Cuộc đua giữa các ông lớn công nghệ trong lĩnh vực mạng xã hội ứng dụng trí tuệ nhân tạo (AI) đang bước vào giai đoạn gay cấn. Trong khi OpenAI của Sam Altman chuẩn bị tung ra nền tảng đối trọng với X (Twitter cũ), Meta của Mark Zuckerberg lại nỗ lực tích hợp AI vào mọi sản phẩm, tạo nên một cuộc chiến mới về quyền lực dữ liệu và trải nghiệm người dùng trên mạng xã hội, theo chuyên trang công nghệ Freethink.
Trong tuần qua, Giám đốc điều hành Nvidia - Jensen Huang đã thực hiện chuyến công du châu Âu, mang theo sự hào hứng và tò mò đến mọi nơi ông ghé thăm. Thông điệp mà ông nhấn mạnh rất rõ ràng: Nvidia chính là công ty có thể giúp châu Âu xây dựng hạ tầng trí tuệ nhân tạo (AI), từ đó nắm quyền chủ động trong kỷ nguyên công nghệ đầy biến động này.
Theo tài liệu Đại hội đồng cổ đông thường niên năm 2025, Đầu tư I.P.A công bố Đại hội dự kiến tổ chức ngày 24/6 tại Hà Nội. Trong đó, Đầu tư I.P.A trình cổ đông không trả cổ tức cho cổ đông trong năm 2024, đồng thời công bố đơn xin từ nhiệm chức danh Thành viên HĐQT của bà Nguyễn Ngọc Thanh.
Bộ Xây dựng đã chính thức cấp giấy phép kinh doanh vận chuyển hàng không cho Công ty TNHH Mặt trời Phú Quốc – chủ sở hữu thương hiệu Sun PhuQuoc Airways (SPA).
Hội đồng Quản trị Tổng CTCP Bảo hiểm Petrolimex (PJICO, mã chứng khoán PGI) vừa ban hành Nghị quyết số 18/2025/PJICO/NQ-HĐQT về việc bổ nhiệm ông Trần Anh Tuấn giữ chức vụ Tổng giám đốc Tổng công ty, nhiệm kỳ 5 năm, bắt đầu từ ngày 16/6/2025.
Ngày 12/6, dịch vụ điện toán đám mây của Google - Google Cloud, gặp sự cố gián đoạn nghiêm trọng trên phạm vi toàn cầu, khiến nhiều dịch vụ Internet lớn bị ngưng trệ hoặc hoạt động không ổn định.
CTCP Tư vấn - Thương mại - Dịch vụ Địa ốc Hoàng Quân (HoSE: mã chứng khoán HQC) vừa công bố thông tin giao dịch cổ phiếu của Chủ tịch HĐQT, ông Trương Anh Tuấn.
Meta vừa mới công bố một mô hình AI mới mang tên V-JEPA 2, được thiết kế để hiểu rõ hơn về môi trường 3D và chuyển động của các vật thể vật lý. Google thông báo đã bổ sung một vị trí lãnh đạo mới là Kiến trúc sư trưởng AI nhằm đẩy nhanh các sản phẩm AI cạnh tranh.
Chủ tịch HĐQT Phạm Nhật Vượng đã báo cáo hoàn tất giao dịch chuyển quyền sở hữu hơn 48 triệu cổ phiếu Vingroup (VIC), tương ứng 1,24% vốn Vingroup để góp vốn vào VinSpeed.
ACV là viết tắt của Airports Corporation of Vietnam tên giao dịch quốc tế của Tổng công ty Cảng hàng không Việt Nam - CTCP trên cơ sở hợp nhất 3 tổng công ty. ACV được giao quản lý, điều phối hoạt động và đầu tư khai thác toàn bộ hệ thống 22 cảng hàng không trên toàn lãnh thổ Việt Nam bao gồm 9 sân bay quốc tế và 13 sân bay nội địa.
Công ty CP Vietcap đứng vị trí 196 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Chứng khoán Vietcap là gì? Công ty CP Vietcap uy tín không? Có nên mở tài khoản tại chứng khoán Bản Việt không?
Công ty TNHH Thương mại và Công nghiệp Mỹ Việt đứng ở vị trí số 195 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Công ty TNHH Thương mại và Công nghiệp Mỹ Việt kinh doanh gì? Tấm lợp Olympic có tốt không?
ACV là viết tắt của Airports Corporation of Vietnam tên giao dịch quốc tế của Tổng công ty Cảng hàng không Việt Nam - CTCP trên cơ sở hợp nhất 3 tổng công ty. ACV được giao quản lý, điều phối hoạt động và đầu tư khai thác toàn bộ hệ thống 22 cảng hàng không trên toàn lãnh thổ Việt Nam bao gồm 9 sân bay quốc tế và 13 sân bay nội địa.
Công ty CP Vietcap đứng vị trí 196 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Chứng khoán Vietcap là gì? Công ty CP Vietcap uy tín không? Có nên mở tài khoản tại chứng khoán Bản Việt không?
Công ty TNHH Thương mại và Công nghiệp Mỹ Việt đứng ở vị trí số 195 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Công ty TNHH Thương mại và Công nghiệp Mỹ Việt kinh doanh gì? Tấm lợp Olympic có tốt không?