22/11/2016 15:16 GMT+7

Trí tuệ nhân tạo hiểu được cử động môi 

D. KIM THOA
D. KIM THOA

TTO - Nghiên cứu mới nhất cho thấy máy tính có thể hiểu tới hơn 90% những điều được nói chỉ bằng cách quan sát cử động môi mà không cần nghe âm thanh.

Trí tuệ nhân tạo (AI) và machine learning có thể hiểu được ý nghĩa nội dung của những cử động mấp máy môi người, độ chính xác cao hơn người có khả năng đọc mấp máy môi - Ảnh: TechnologyReview

Theo trang khoa học Technology Review, khả năng đọc cử động của môi người khi nói là điều đặc biệt khó khăn vì còn tùy thuộc vào ngữ cảnh cũng như hiểu biết về ngôn ngữ tự nhiên được nói, căn cứ theo các chuyển động của miệng khi phát âm.

Tuy nhiên, các nhà nghiên cứu vừa chứng minh rằng thuật toán machine learning có thể hiểu được những ngôn ngữ được nói ra trong các đoạn video câm (không có âm thanh) còn hiệu quả hơn cả những người chuyên đọc tín hiệu của môi.

Cụ thể, trong dự án nghiên cứu thứ nhất, nhóm nghiên cứu của Khoa Khoa học máy tính Đại học Oxford đã phát triển hệ thống trí tuệ nhân tạo (AI) mới có tên là LipNet. Hệ thống này được xây dựng trên bộ dữ liệu có tên là GRID vốn được tạo ra từ hàng loạt các đoạn clip quay lại hình ảnh mọi người mấp máy cử động môi ra sao khi đọc những câu có độ dài 3 giây. Mỗi câu này đều dựa trên một chuỗi các từ có dạng thức mấp máy môi tương tự.

Theo đó nhóm nghiên cứu đã sử dụng bộ dữ liệu để "đào luyện" một mạng "thần kinh nhân tạo" (neural network), tương tự như loại thường được sử dụng để xử lý quá trình nhận diện tiếng nói.

Nhưng trong trường hợp này, mạng thần kinh nhân tạo lại có nhiệm vụ xác định những dạng thức khuôn miệng khác nhau, học cách kết nối thông tin đó với phần nội dung giải thích những gì đang được nói ra.

Khi thử nghiệm, hệ thống trí tuệ nhân tạo này đã có thể xác định được tới 93,4% chính xác các từ đã được nói. Các tình nguyện viên tham gia thử nghiệm đọc máy môi thực hiện nhiệm vụ tương tự mà máy đã làm và chỉ xác định được các từ với tỉ lệ chính xác là 52,3%.

Bên cạnh dự án này, trang New Scientist còn dẫn ra một dự án nghiên cứu khác của nhóm nghiên cứu thuộc Khoa Khoa học kỹ thuật của Đại học Oxford. Trong đó, nhóm này tiến hành công việc tương tự nhưng với hệ thống DeepMind của Google và thực hiện ở cấp độ khó khăn hơn.

Thay vì sử dụng bộ dữ liệu sạch và liên tục như GRID, họ sử dụng một loạt 100.000 video clip cắt ra từ các chương trình của đài BBC. Các đoạn băng này có quy mô sử dụng ngôn ngữ rộng hơn nhiều và sự đa dạng trong tư thế đầu của người nói và môi trường ánh sáng khác nhau.

Công nghệ đọc máy môi trí tuệ nhân tạo DeepMind của Google - Ảnh: Yahoo

Sử dụng một phương pháp xử lý tương tự, nhóm nghiên cứu đã tạo ra được công nghệ trí tuệ nhân tạo có khả năng xác định được các từ chính xác với tỉ lệ 46,8%. Như vậy cũng đã là tốt hơn nhiều so với con người khi chỉ đạt 12,4% tỉ lệ chính xác trong dự án này.

Ở dự án nghiên cứu thứ hai, có những lý do rất rõ ràng cho thấy vì sao độ chính xác thấp hơn dự án trước, từ sự đa dạng về ánh sáng trong các clip cho tới những tư thế đa dạng của người nói và độ phức tạp hơn nhiều của ngôn ngữ sử dụng.

Tuy nhiên, bất kể những khác biệt, cả hai dự án nghiên cứu đều cho thấy trí tuệ nhân tạo đều đã vượt trội hơn nhiều so với con người về khả năng đọc mấp máy môi. Cũng không khó gì để người ta có thể hình dung về các ứng dụng tiềm năng cho công nghệ này. 

D. KIM THOA

Bình luận hay

Chia sẻ

Tuổi Trẻ Online Newsletters

Đăng ký ngay để nhận gói tin tức mới

Tuổi Trẻ Online sẽ gởi đến bạn những tin tức nổi bật nhất

Bình luận (0)
Tối đa: 1500 ký tự

Tin cùng chuyên mục

Bluetooth và AirDrop: Tưởng giống, hóa ra không

Bạn đã từng dùng Bluetooth để nghe nhạc qua tai nghe, AirDrop để gửi ảnh, nhưng có bao giờ thử so sánh chúng?

Bluetooth và AirDrop: Tưởng giống, hóa ra không

Hé lộ 'bí mật' mã OTP

Mỗi lần bạn đăng nhập hay thanh toán, mã OTP chỉ dùng được trong khoảng 30 giây rồi biến mất. Vì sao lại có giới hạn đó, và hệ thống nào đứng sau việc tạo mã nhanh chóng mà vẫn đảm bảo bảo mật?

Hé lộ 'bí mật' mã OTP

Làm việc thời nay là lúc nào cũng phải online?

Trong thời đại mà sự hiện diện trực tuyến được xem như thước đo cam kết, người lao động ngày càng bị cuốn vào vòng xoáy 'phải luôn online để được nhìn nhận'. Vậy quyền được tắt máy liệu có còn tồn tại?

Làm việc thời nay là lúc nào cũng phải online?

Khi nào công nghệ sạc không dây thay được dây sạc truyền thống?

Ra đời với lời hứa về sự tiện lợi, sạc không dây đến nay vẫn chưa đủ sức thay thế dây sạc truyền thống trong thói quen hằng ngày của người dùng. Công nghệ này liệu có đang chững lại?

Khi nào công nghệ sạc không dây thay được dây sạc truyền thống?

Trợ lý AI giúp tra cứu nhanh thông tin đơn vị hành chính mới

Trợ lý AI hoạt động 24/7 trên máy tính, điện thoại, máy tính bảng, giúp người dùng tra cứu nhanh các thông tin về đơn vị hành chính mới.

Trợ lý AI giúp tra cứu nhanh thông tin đơn vị hành chính mới

Hơn 659.000 vụ tấn công mạng nhằm vào cơ quan, doanh nghiệp Việt, 'tường lửa' nào giúp bảo vệ?

Tại Việt Nam, những năm gần đây ghi nhận hàng loạt vụ tấn công mạng nghiêm trọng, từ ransomware đến đánh cắp dữ liệu qua hình thức lừa đảo (phishing)...

Hơn 659.000 vụ tấn công mạng nhằm vào cơ quan, doanh nghiệp Việt, 'tường lửa' nào giúp bảo vệ?
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar
Đăng ký bằng email
Khi bấm "Đăng ký" đồng thời bạn đã đồng ý với điều khoản của toà soạn Đăng ký
Đăng nhập
Thông tin bạn đọc Thông tin của bạn đọc sẽ được bảo mật an toàn và chỉ sử dụng trong trường hợp toà soạn cần thiết để liên lạc với bạn.
Gửi bình luận
Đóng
Hoàn thành
Đóng

Bình luận (0)
Tối đa: 1500 ký tự
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar