S&P Global Market Intelligence – một nhánh của S&P Global, đã phát triển RiskGauge, một nền tảng ứng dụng công nghệ AI có khả năng thu thập dữ liệu “ẩn” từ hơn 200 triệu trang web, xử lý bằng hàng loạt thuật toán và tạo ra điểm rủi ro cho từng doanh nghiệp vừa và nhỏ (SME).
Trong thế giới đầu tư, một vấn đề lớn từ lâu vẫn chưa có lời giải: dữ liệu về các doanh nghiệp nhỏ và vừa (SME). Không phải do chất lượng hay độ chính xác – mà là do thiếu dữ liệu nghiêm trọng.
Công nghệ AI lan rộng trong lĩnh vực đầu tư
Việc đánh giá mức độ tín nhiệm của các SME luôn là một thách thức lớn vì thông tin tài chính của họ thường không công khai, khiến quá trình thu thập dữ liệu trở nên cực kỳ khó khăn.
Tuy nhiên, S&P Global Market Intelligence – một nhánh của S&P Global, chuyên cung cấp xếp hạng tín dụng và các chỉ số chuẩn – tuyên bố đã giải quyết được bài toán này bằng công nghệ AI.
Đội ngũ kỹ thuật của họ đã phát triển RiskGauge, một nền tảng ứng dụng công nghệ AI có khả năng thu thập dữ liệu “ẩn” từ hơn 200 triệu trang web, xử lý bằng hàng loạt thuật toán và tạo ra điểm rủi ro cho từng doanh nghiệp.
Trong thế giới đầu tư, một vấn đề lớn từ lâu vẫn chưa có lời giải: dữ liệu về các doanh nghiệp nhỏ và vừa (SME). (Ảnh: VentureBeat/Ideogram)
Nền tảng này được xây dựng trên kiến trúc Snowflake, cho phép mở rộng quy mô linh hoạt và xử lý khối lượng dữ liệu lớn. Nhờ đó, phạm vi dữ liệu SME mà S&P thu thập được đã tăng gấp 5 lần so với trước.
Chúng tôi hướng tới mục tiêu mở rộng và tối ưu hiệu quả. Dự án này đã giúp cải thiện đáng kể cả về độ chính xác và độ bao phủ dữ liệu, mang lại lợi ích thiết thực cho khách hàng.
Kiến trúc nền tảng của RiskGauge
Quản lý tín dụng đối tác là quá trình đánh giá mức độ tín nhiệm và rủi ro của một công ty dựa trên nhiều yếu tố như tình hình tài chính, xác suất vỡ nợ và mức độ chấp nhận rủi ro. S&P Global Market Intelligence cung cấp những phân tích này cho các nhà đầu tư tổ chức, ngân hàng, công ty bảo hiểm, nhà quản lý tài sản và nhiều đối tượng khác.
Các tập đoàn lớn thường cho các nhà cung cấp của họ vay, vì vậy họ cần theo dõi thường xuyên trong suốt thời gian có rủi ro liên quan. Họ có thể dựa vào các bên thứ ba để hỗ trợ đánh giá tín dụng.
Tuy nhiên, từ lâu vẫn tồn tại khoảng trống dữ liệu với các doanh nghiệp nhỏ và vừa (SME). Hadi chỉ ra rằng, trong khi các công ty niêm yết lớn như IBM, Microsoft, Amazon hay Google đều phải công bố báo cáo tài chính hàng quý, thì các SME tư nhân ở Mỹ không bị ràng buộc bởi nghĩa vụ này – khiến tính minh bạch tài chính trở nên hạn chế. Từ góc độ nhà đầu tư, cần lưu ý rằng Mỹ có khoảng 10 triệu SME, so với chỉ khoảng 60.000 công ty đại chúng.
Hiện nay, S&P Global Market Intelligence tuyên bố đã mở rộng đáng kể độ bao phủ, bao gồm 10 triệu SME tư nhân đang hoạt động tại Mỹ (không bao gồm hộ kinh doanh cá thể).
Nền tảng RiskGauge, chính thức đưa vào vận hành từ tháng 1/2025, được xây dựng bởi đội ngũ của Hadi. Hệ thống thu thập dữ liệu “firmographic” từ các nội dung web phi cấu trúc, kết hợp với dữ liệu ẩn danh từ bên thứ ba, rồi sử dụng học máy (ML) và các thuật toán tiên tiến để tính điểm tín dụng.
S&P sử dụng nền tảng Snowflake (cùng với các đối tác công nghệ khác) để quét các trang web doanh nghiệp, chuyển đổi dữ liệu thành các yếu tố phân loại thị trường (firmographic drivers) và đưa vào hệ thống RiskGauge.
Quy trình xử lý dữ liệu của nền tảng bao gồm các lớp: Trình thu thập dữ liệu (web crawlers/scrapers); Lớp tiền xử lý (pre-processing layer); Khai thác dữ liệu (miners); Chọn lọc dữ liệu (curators); Tính điểm tín dụng RiskGauge
Cụ thể, đội ngũ của Hadi sử dụng kho dữ liệu Snowflake và Snowpark Container Services ở các bước tiền xử lý, khai thác và chọn lọc.
Kết quả cuối cùng, các SME được chấm điểm tín dụng từ 1 đến 100, trong đó 1 là rủi ro cao nhất và 100 là thấp nhất.
Nhà đầu tư sẽ nhận được báo cáo phân tích từ RiskGauge, bao gồm: dữ liệu tài chính, firmographics, báo cáo tín dụng doanh nghiệp, hiệu suất hoạt động trong quá khứ và các sự kiện quan trọng.
Ngoài ra, họ còn có thể so sánh các SME với các đối thủ cùng ngành.
Dữ liệu về doanh nghiệp SME thiếu trầm trọng. (Ảnh minh họa)
S&P thu thập dữ liệu doanh nghiệp có giá trị như thế nào?
Ông Moody Hadi giải thích rằng nền tảng RiskGauge sử dụng một quy trình thu thập dữ liệu nhiều lớp (multi-layer scraping) để trích xuất thông tin từ tên miền web của doanh nghiệp, bao gồm các trang cơ bản như “Liên hệ”, trang chủ, cũng như tin tức liên quan. Các “thợ đào dữ liệu” (miners) sẽ lần theo nhiều lớp URL khác nhau để truy xuất những thông tin có liên quan.
Bạn có thể hình dung rằng con người không thể làm việc này. Sẽ tốn quá nhiều thời gian nếu phải làm thủ công, nhất là khi bạn xử lý tới 200 triệu trang web.
Sau khi dữ liệu được thu thập, hệ thống sẽ áp dụng các thuật toán loại bỏ những yếu tố không phải văn bản – chẳng hạn như mã JavaScript hay thẻ HTML – vì hệ thống chỉ quan tâm đến nội dung có thể đọc được như văn bản thông thường. Dữ liệu sau đó được làm sạch, chuyển về định dạng dễ đọc, rồi nạp vào nền tảng Snowflake để tiến hành các bước phân tích sâu hơn bằng các thuật toán khai thác dữ liệu.
Một điểm quan trọng là RiskGauge sử dụng các thuật toán học tổ hợp (ensemble learning) – tức là kết hợp nhiều mô hình dự đoán riêng lẻ (thường được gọi là "người học yếu" – weak learners) để đưa ra kết quả chính xác hơn.
Các mô hình này xác thực các thông tin như tên doanh nghiệp, mô tả ngành nghề, lĩnh vực hoạt động, vị trí và hoạt động kinh doanh. Hệ thống cũng phân tích cả cảm xúc tích cực hay tiêu cực liên quan đến các thông báo được đăng tải trên website của doanh nghiệp.
Khi hệ thống thu thập xong dữ liệu từ một trang web, các thuật toán sẽ đánh giá từng phần nội dung, ‘bỏ phiếu’ và sau đó đưa ra đề xuất cuối cùng. Hoàn toàn không có con người can thiệp vào quy trình này – các thuật toán cạnh tranh lẫn nhau để nâng cao hiệu suất, giúp mở rộng phạm vi dữ liệu.
Sau quá trình thu thập ban đầu, hệ thống sẽ tiếp tục theo dõi hoạt động của trang web thông qua quét định kỳ hàng tuần. Tuy nhiên, dữ liệu sẽ chỉ được cập nhật nếu phát hiện có thay đổi. Khi hệ thống thực hiện quét lại, nó sẽ tạo một mã băm (hash key) cho trang chính và so sánh với mã cũ từ lần quét trước.
Nếu hai mã giống nhau, nghĩa là nội dung không thay đổi và không cần hành động gì. Nếu khác nhau, hệ thống sẽ tự động kích hoạt cập nhật thông tin doanh nghiệp.
Hadi nhấn mạnh rằng quy trình theo dõi liên tục này rất quan trọng để đảm bảo dữ liệu luôn được cập nhật mới nhất: “Nếu họ thường xuyên cập nhật trang web, điều đó cho thấy họ vẫn đang hoạt động, đúng không?”
Nhiều thách thức: tốc độ xử lý, dữ liệu khổng lồ và website ‘bẩn’
Tất nhiên, trong quá trình xây dựng hệ thống, nhóm của Hadi đã gặp không ít thách thức – đặc biệt là do quy mô dữ liệu quá lớn và yêu cầu xử lý nhanh chóng. Họ buộc phải cân bằng giữa độ chính xác và tốc độ.
Chúng tôi liên tục tối ưu thuật toán để chạy nhanh hơn. Một số thuật toán ban đầu có độ chính xác rất cao, nhưng lại tốn tài nguyên tính toán quá lớn.
Bên cạnh đó, không phải website nào cũng tuân thủ định dạng tiêu chuẩn, khiến cho việc thu thập dữ liệu càng thêm khó khăn.
“Khi bắt đầu, chúng tôi cứ nghĩ rằng mọi website phải có sơ đồ trang (sitemap) hoặc chuẩn XML. Nhưng thực tế là… không ai tuân theo cả,” ông cười nói.
Hệ thống cũng không sử dụng mã cứng (hard-code) hay robot tự động (RPA) vì mỗi trang web đều khác biệt. Thay vào đó, nhóm tập trung vào nội dung văn bản – nơi chứa thông tin giá trị nhất. Điều này dẫn đến việc phát triển một hệ thống chỉ thu thập những thành phần cần thiết từ trang web, loại bỏ hoàn toàn mã lập trình, JavaScript hay TypeScript.
Thách thức lớn nhất là hiệu suất, tối ưu hóa và thực tế là thiết kế website vốn dĩ không ‘sạch’ để dễ thu thập dữ liệu.
Các công ty công nghệ hàng đầu Hàn Quốc, bao gồm Naver và Kakao, đang đẩy mạnh quan hệ đối tác với các tập đoàn công nghệ lớn của Mỹ trong một chiến lược nhằm duy trì lợi thế cạnh tranh trong bối cảnh cuộc đua trí tuệ nhân tạo (AI) toàn cầu ngày càng khốc liệt.
Viettel ghi nhận lợi nhuận trước thuế năm 2024 đạt mức kỷ lục 54.337 tỷ đồng. Lợi nhuận sau thuế đạt 41.951 tỷ đồng, tăng 19% so với thực hiện năm 2023. Đáng chú ý, thu nhập bình quân của người lao động tại tập đoàn năm vừa qua đạt 33,5 triệu đồng/người/tháng.
Mới đây, ông Phạm Nhật Vượng đăng ký chuyển quyền sở hữu hơn 87,5 triệu cổ phiếu VIC, chiếm tỉ lệ 2,26% vốn điều lệ của Vingroup để góp vào Công ty cổ phần Đầu tư và Phát triển đường sắt cao tốc VinSpeed.
Hội đồng Quản trị Tập đoàn FLC (mã chứng khoán FLC) vừa ban hành nghị quyết triệu tập Đại hội đồng cổ đông bất thường, nhằm kiện toàn bộ máy lãnh đạo và báo cáo kết quả hoạt động sản xuất kinh doanh 6 tháng đầu năm 2025, đồng thời xây dựng kế hoạch cho năm tài chính 2026.
Ngân hàng TMCP Kiên Long (Kienlongbank - Mã chứng khoán KLB) vừa công bố tài liệu đại hội đồng cổ đông bất thường dự kiến được tổ chức trực tuyến vào tháng 7 tới đây.
Trong cuộc đua AI tranh giành vị trí thống trị với Nvidia, Amazon tiếp tục thúc đẩy mục tiêu phát thải ròng bằng 0 vào năm 2040 bằng việc mua hơn 9 triệu lít nhiên liệu hàng không bền vững từ Neste để vận hành đội bay Amazon Air.
Công ty trí tuệ nhân tạo xAI của Elon Musk đang tiến gần đến việc hoàn tất thương vụ phát hành trái phiếu trị giá 5 tỷ USD do Morgan Stanley đứng đầu, bất chấp sự quan tâm khá dè dặt từ giới đầu tư.
Theo đó, vốn điều lệ của Công ty mẹ - VEC được phê duyệt đến hết năm 2026 là 39.366 tỷ đồng, tăng 38.251 tỷ đồng so với mức vốn điều lệ đã được phê duyệt đến năm 2023.
CTCP Phát triển Bất động sản Phát Đạt (HoSE: mã chứng khoán PDR) công bố thông tin về ứng viên Thành viên độc lập HĐQT do Chủ tịch Nguyễn Văn Đạt đề cử.
CTCP Tập đoàn Lộc Trời (LTG) sẽ trình lên ĐHĐCĐ thường niên 2025 diễn ra ngày 14/7 tới đây kế hoạch kinh doanh dự kiến thua lỗ và xin hủy phương án chi trả cổ tức năm 2023.
Ban lãnh đạo OpenAI hiện đang bàn bạc về khả năng cáo buộc Microsoft - nhà đầu tư lớn nhất của mình, có hành vi cạnh tranh không lành mạnh trong quá trình hợp tác giữa hai bên.
Sở Giao dịch Chứng khoán TP HCM (HoSE) đã nhận hồ sơ đăng ký niêm yết gần 24 triệu cổ phiếu Công ty cổ phần Khu công nghiệp Nam Tân Uyên (mã chứng khoán NTC: UPCoM).
CTCP Tập đoàn Đầu tư Địa ốc No Va (Novaland, HoSE: mã chứng khoán NVL) vừa thông qua nghị quyết của Hội đồng quản trị về kế hoạch tổ chức ĐHĐCĐ bất thường vào đầu tháng 8 tới đây.
Với 2 phương án phát hành cổ phiếu Nhà Khang Điền sẽ tăng số lượng cổ phiếu đang lưu hành lên mức 1,12 tỷ cổ phiếu, tương đương vốn điều lệ 11.222,1 tỷ đồng.
Reddit vừa khởi kiện Anthropic - công ty đứng sau chatbot Claude AI - với cáo buộc thu thập trái phép hơn 100.000 bài đăng và bình luận của người dùng để huấn luyện mô hình ngôn ngữ lớn (LLM) của mình.
Cuộc đua giữa các ông lớn công nghệ trong lĩnh vực mạng xã hội ứng dụng trí tuệ nhân tạo (AI) đang bước vào giai đoạn gay cấn. Trong khi OpenAI của Sam Altman chuẩn bị tung ra nền tảng đối trọng với X (Twitter cũ), Meta của Mark Zuckerberg lại nỗ lực tích hợp AI vào mọi sản phẩm, tạo nên một cuộc chiến mới về quyền lực dữ liệu và trải nghiệm người dùng trên mạng xã hội, theo chuyên trang công nghệ Freethink.
Trong tuần qua, Giám đốc điều hành Nvidia - Jensen Huang đã thực hiện chuyến công du châu Âu, mang theo sự hào hứng và tò mò đến mọi nơi ông ghé thăm. Thông điệp mà ông nhấn mạnh rất rõ ràng: Nvidia chính là công ty có thể giúp châu Âu xây dựng hạ tầng trí tuệ nhân tạo (AI), từ đó nắm quyền chủ động trong kỷ nguyên công nghệ đầy biến động này.
Theo tài liệu Đại hội đồng cổ đông thường niên năm 2025, Đầu tư I.P.A công bố Đại hội dự kiến tổ chức ngày 24/6 tại Hà Nội. Trong đó, Đầu tư I.P.A trình cổ đông không trả cổ tức cho cổ đông trong năm 2024, đồng thời công bố đơn xin từ nhiệm chức danh Thành viên HĐQT của bà Nguyễn Ngọc Thanh.
Bộ Xây dựng đã chính thức cấp giấy phép kinh doanh vận chuyển hàng không cho Công ty TNHH Mặt trời Phú Quốc – chủ sở hữu thương hiệu Sun PhuQuoc Airways (SPA).
ACV là viết tắt của Airports Corporation of Vietnam tên giao dịch quốc tế của Tổng công ty Cảng hàng không Việt Nam - CTCP trên cơ sở hợp nhất 3 tổng công ty. ACV được giao quản lý, điều phối hoạt động và đầu tư khai thác toàn bộ hệ thống 22 cảng hàng không trên toàn lãnh thổ Việt Nam bao gồm 9 sân bay quốc tế và 13 sân bay nội địa.
Công ty CP Vietcap đứng vị trí 196 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Chứng khoán Vietcap là gì? Công ty CP Vietcap uy tín không? Có nên mở tài khoản tại chứng khoán Bản Việt không?
Công ty TNHH Thương mại và Công nghiệp Mỹ Việt đứng ở vị trí số 195 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Công ty TNHH Thương mại và Công nghiệp Mỹ Việt kinh doanh gì? Tấm lợp Olympic có tốt không?
ACV là viết tắt của Airports Corporation of Vietnam tên giao dịch quốc tế của Tổng công ty Cảng hàng không Việt Nam - CTCP trên cơ sở hợp nhất 3 tổng công ty. ACV được giao quản lý, điều phối hoạt động và đầu tư khai thác toàn bộ hệ thống 22 cảng hàng không trên toàn lãnh thổ Việt Nam bao gồm 9 sân bay quốc tế và 13 sân bay nội địa.
Công ty CP Vietcap đứng vị trí 196 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Chứng khoán Vietcap là gì? Công ty CP Vietcap uy tín không? Có nên mở tài khoản tại chứng khoán Bản Việt không?
Công ty TNHH Thương mại và Công nghiệp Mỹ Việt đứng ở vị trí số 195 trong danh sách 500 doanh nghiệp tư nhân lớn nhất Việt Nam. Công ty TNHH Thương mại và Công nghiệp Mỹ Việt kinh doanh gì? Tấm lợp Olympic có tốt không?