16/06/2025 11:03 GMT+7

Khi Scale AI ‘dạy học’ cho trí tuệ nhân tạo

THANH THƯ

Khởi đầu khi người sáng lập vẫn còn đang tuổi sinh viên, Scale AI giờ đây là mắt xích không thể thiếu trong hành trình học hỏi của các mô hình trí tuệ nhân tạo. Công ty này không tạo ra AI, nhưng chính là nơi giúp AI hiểu được thế giới con người.

Scale AI không thường xuyên xuất hiện trên mặt báo, cũng không nằm trong nhóm những công ty công nghệ tạo ra các sản phẩm người dùng có thể chạm tay vào. Nhưng với giới phát triển trí tuệ nhân tạo, họ lại là một phần không thể thiếu trong toàn bộ quá trình huấn luyện mô hình.

Công việc của Scale AI diễn ra âm thầm phía sau sân khấu, nơi dữ liệu thô được con người xử lý và chuyển hóa thành bài học cho máy móc. Nhờ đó, các hệ thống thông minh mới có thể dần hiểu được ngôn ngữ, hình ảnh, cảm xúc hay hành vi mà con người thể hiện trong thế giới thực.

Scale AI là ai và họ làm gì?

So với OpenAI, Google hay Meta, Scale AI là một nhân vật khá trầm lặng. Công ty này không trực tiếp tạo ra chatbot biết nói chuyện như người thật hay xe tự lái có khả năng đọc tình huống giao thông, nhưng lại đóng vai trò cực kỳ quan trọng trong việc giúp những công nghệ đó trở nên thông minh hơn mỗi ngày.

Scale AI được thành lập vào năm 2016 khi người sáng lập Alexandr Wang vẫn còn đang trong độ tuổi sinh viên. Thay vì đi theo hướng phát triển thuật toán, Wang chọn một con đường khác: xây dựng nền tảng chuyên xử lý dữ liệu để phục vụ việc huấn luyện trí tuệ nhân tạo.

Trong thế giới này, dữ liệu chính là nguyên liệu sống. Nhưng dữ liệu chưa qua xử lý như hình ảnh chưa phân loại, đoạn hội thoại chưa sắp xếp hay video chưa rõ nội dung thường rất hỗn tạp và không có giá trị trực tiếp với máy móc.

Biết khai thác dữ liệu, doanh nghiệp bứt phá trên sàn thương mại điện tử ĐỌC NGAY

Công việc của Scale AI là làm sạch, phân loại và gán nhãn cho khối lượng dữ liệu khổng lồ đó. Điều này có nghĩa là họ thiết kế cả hệ thống lẫn đội ngũ giúp xác định và tổ chức từng chi tiết nhỏ trong một bức ảnh, một đoạn văn hay một cảnh quay video.

Ví dụ, để xe tự lái học cách dừng đúng chỗ, từng khung hình thu từ camera phải được xác định rõ đâu là vạch qua đường, đâu là tín hiệu đèn, đâu là người đi bộ. Với hàng triệu dữ liệu như vậy, trí tuệ nhân tạo mới có thể học được hành vi một cách chính xác.

Nhờ những công đoạn chuẩn bị dữ liệu như vậy, các mô hình như ChatGPT, Claude hay các trợ lý ảo trong ô tô có thể hiểu ngôn ngữ tự nhiên, nhận diện chính xác hình ảnh trong môi trường thực tế và phản hồi theo cách giống con người.

Muốn dạy AI thông minh, phải bắt đầu từ điều nhỏ nhất

Một mô hình trí tuệ nhân tạo dù có cấu trúc phức tạp đến đâu cũng chỉ là một khung xương rỗng nếu không được nuôi bằng dữ liệu. Khác với con người có thể học từ trải nghiệm và linh cảm, máy móc chỉ biết lặp lại những gì đã từng được nhìn thấy. Đó là lý do vì sao dữ liệu huấn luyện đóng vai trò quyết định trong việc tạo ra một mô hình hiệu quả hay không.

Muốn một chatbot hiểu cách con người đặt câu hỏi, nó phải từng tiếp xúc với hàng triệu đoạn hội thoại. Muốn một chiếc xe nhận ra người đi bộ trong điều kiện trời mưa, nó phải được xem qua hàng trăm nghìn bức ảnh tương tự. Tất cả những ví dụ thực tế đó phải được gắn nhãn chính xác để máy tính học theo. Không có nhãn đúng, trí tuệ nhân tạo sẽ hiểu sai. Không có đủ dữ liệu đa dạng, nó sẽ phản ứng kém trong môi trường thực tế.

Điều này lý giải vì sao công việc của Scale AI lại quan trọng đến vậy. Họ không chỉ thu thập dữ liệu mà còn đảm bảo rằng dữ liệu đó được tổ chức một cách chính xác, đa dạng và có thể học được. Nhờ đó, các mô hình sau này mới có thể phản ứng như một người đã từng trải.

Một ví dụ điển hình là trong lĩnh vực xe tự lái. Để huấn luyện một chiếc xe xử lý các tình huống bất ngờ như người chạy băng qua đường hay xe máy đi ngược chiều, mô hình trí tuệ nhân tạo cần được xem trước hàng chục nghìn tình huống tương tự.

Những dữ liệu như vậy không thể có sẵn, cũng không thể để máy tự học. Phải có người chuẩn bị, sắp xếp và đảm bảo tính chính xác trước khi trí tuệ nhân tạo bắt đầu quá trình học.

Vai trò của Scale AI nằm ở đó. Họ chính là người tạo ra bài học, không phải bằng kiến thức sách vở mà bằng hàng tỉ ví dụ thực tế được tinh chỉnh cẩn thận. Mỗi một dòng dữ liệu đi qua tay họ đều trở thành một viên gạch xây nên nhận thức của trí tuệ nhân tạo hiện đại.

Từ phòng thí nghiệm đến đường phố, dữ liệu vẫn đi đầu

Không chỉ dừng lại ở văn bản, Scale AI còn tham gia vào việc huấn luyện thị giác máy tính cho xe tự lái. Các hãng công nghệ như Tesla, Toyota hay General Motors đều từng hợp tác với Scale AI để dạy xe nhận diện người đi bộ, đọc tín hiệu giao thông và xử lý các tình huống bất ngờ.

Ngoài ra, Scale AI còn hỗ trợ các lĩnh vực khác như quốc phòng, vệ tinh và bản đồ. Họ xử lý hình ảnh từ camera, radar và ảnh chụp từ không gian để giúp các mô hình nhận biết địa hình, phân loại vật thể hoặc phát hiện nguy cơ từ sớm. Một bức ảnh vệ tinh tưởng chừng chỉ là cảnh rừng núi, nhưng qua bàn tay của đội ngũ Scale AI có thể trở thành một tập dữ liệu giúp máy dự đoán hướng di chuyển của cháy rừng.

Việc mở rộng ra nhiều lĩnh vực cho thấy Scale AI không chỉ là một công cụ phụ trợ mà đang trở thành một phần cốt lõi trong cách trí tuệ nhân tạo học hỏi thế giới. Khi thế giới tiếp tục chạy đua để tạo ra những mô hình thông minh hơn, chính những công ty âm thầm như Scale AI mới là người đặt nền móng vững chắc cho cuộc đua đó.

AI phát hiện 'tuổi thật' của cuốn sách cổ, giới khảo cổ chấn động

Việc AI xác định 'tuổi' thật sự của những cuốn sách cổ rất quan trọng, bởi nó có thể đưa các văn bản vào những bối cảnh chính trị và văn hóa hoàn toàn khác nhau.