30/01/2012 08:00 GMT+7

Công nghệ nhận diện tiếng Việt qua giọng nói

ĐÌNH KHÁNH
ĐÌNH KHÁNH

TTO - Mặc dù đã có từ cách đây hơn nửa thế kỷ nhưng chưa bao giờ công nghệ nhận diện giọng nói được quan tâm như hiện nay.

Kể từ khi ứng dụng Siri của Apple được tích hợp trên iPhone 4S, người dùng và các hãng sản xuất đã như thức tỉnh trước một nhu cầu tương tác qua giọng nói giữa con người và các thiết bị công nghệ.

Ở Việt Nam, do những hạn chế về điều kiện nghiên cứu cũng như sự phức tạp của tiếng Việt nên đến năm 2006, công nghệ nhận diện giọng nói tiếng Việt mới bắt đầu được phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHNT TP.HCM nghiên cứu.

Phóng to
Giao diện ứng dụng iSago - Ảnh: Hải Triều

Hỏi quán phở, iSago trả lời

Giới thiệu với chúng tôi về ứng dụng sử dụng công nghệ nhận diện giọng nói tiếng Việt, anh Trần Minh Trường, nhân viên phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM, mở ứng dụng có tên iSago trên chiếc điện thoại iPhone 4, ấn vào biểu tượng chiếc micro rồi nói: “Tôi muốn tìm KFC ở quận 1”, chỉ sau tích tắc màn hình trả về một danh sách địa chỉ các nhà hàng KFC ở quận 1. Anh Trường bấm vào một cửa hàng, ngay lập tức bản đồ ở khu vực cửa hàng này xuất hiện trên màn hình.

iSago là một ứng dụng được nhóm nhân viên, cộng tác viên của phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM cho ra mắt vào cuối năm 2011 dựa trên những thành công trong quá trình nghiên cứu công nghệ nhận diện giọng nói của phòng thực hiện từ năm 2006.

Hiện tại, iSago phiên bản 1.0 mới chỉ có chức năng tìm kiếm các nhà hàng, quán ăn ở khu vực TP.HCM bằng giọng nói.

Người dùng có thể ra lệnh bằng giọng nói để tìm kiếm hơn 30 tên món ăn như cơm, phở, bún, ốc… ở tất cả các quận và địa danh nổi tiếng trong thành phố như Bến Thành, Bà Chiểu... với xác suất thử nghiệm chính xác là 92%.

Phóng to
Các thành viên của nhóm viết ứng dụng iSago và VIS - Ảnh: Hải Triều

iSago được nhóm thực hiện bắt đầu viết vào giữa năm 2011 và đến cuối năm thì được chính thức giới thiệu. Hiện iSago 1.0 đã được đưa lên Apple Store và đang trong quá trình chờ kiểm duyệt. Sau khi kiểm duyệt xong, người dùng iOS có thể tải về miễn phí để sử dụng.

iSago có hai chế độ tìm kiếm onlineoffline. Ở chế độ offline, người dùng sẽ tìm kiếm bằng cách nhập văn bản, hạn chế của việc tìm kiếm này là người dùng sẽ không xem được bản đồ chỉ dẫn.

Alo, tổng đài viên VIS

Song song với iSago, một ứng dụng khác có tên VIS cũng được nhóm nghiên cứu công nghệ nhận diện tiếng Việt giới thiệu.

VIS được viết từ năm 2009 và được đưa vào thử nghiệm từ tháng 10-2011. Số lượng từ khóa VIS nhận diện được là 55 từ bao gồm những từ thông dụng mà người gọi đến tổng đài tự động hay sử dụng.

Hiện tổng đài tự động của Trường ĐH KHTN có thể thông qua nhận diện giọng nói để nối máy đến 9 phòng ban của trường. Trong tương lai, nhóm nghiên cứu sẽ đưa con số này lên 18 phòng ban và khoa.

Thành quả ban đầu và những dự định

Nói về những thuận lợi và khó khăn của nhóm nghiên cứu, PGS.TS Vũ Hải Quân, giám đốc phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM, chia sẻ: “Công nghệ nhận dạng giọng nói trên thế giới đã có từ cách đây gần 70 năm, vì thế khi bắt đầu bằng tiếng Việt có rất nhiều kết quả chúng ta có thể tận dụng được.

Tuy nhiên, tiếng Việt có những đặc thù riêng, chúng ta chưa có những nghiên cứu về ngữ âm chuyên cho các mô hình nhận dạng và tổng hợp. Nhóm đã phải làm việc rất lâu để cho ra mô hình được cho là có kết quả nhận dạng tốt nhất. Để thu thập dữ liệu, dự án này đỏi hỏi phải có sự tham gia của hàng trăm, hàng nghìn sinh viên mà chỉ có ở trong môi trường đại học chúng tôi mới có thể làm được vì các bạn sinh viên đều làm miễn phí”.

Phóng to
PGS.TS Vũ Hải Quân, giám đốc phòng thí nghiệm trí tuệ nhân tạo Trường ĐH KHTN TP.HCM - Ảnh: H.Triều

“Ngoài iSago và VIS, chúng tôi cũng đang phát triển thêm những ứng dụng khác. Cụ thể, sau tết chúng tôi sẽ triển khai một phần mềm đọc miễn phí cho Hội người mù, chúng tôi làm hoàn toàn miễn phí để những người có hoàn cảnh khó khăn có thể tiếp cận được với công nghệ. Ngoài ra, chúng tôi cũng hợp tác với Trường ĐH Kyoto của Nhật Bản để làm một chương trình hỗ trợ nông dân đồng bằng sông Cửu Long liên quan đến vấn đề công nghệ trồng lúa. Nông dân hầu hết không có điều kiện học hành nhiều, thậm chí không biết chữ, khi đó tiếng nói sẽ là phương tiện tốt nhất chuyển tải thông tin đến cho họ” - TS Quân nói.

ĐÌNH KHÁNH

Bình luận hay

Chia sẻ

Tuổi Trẻ Online Newsletters

Đăng ký ngay để nhận gói tin tức mới

Tuổi Trẻ Online sẽ gởi đến bạn những tin tức nổi bật nhất

Bình luận (0)
Tối đa: 1500 ký tự

Tin cùng chuyên mục

Bluetooth và AirDrop: Tưởng giống, hóa ra không

Bạn đã từng dùng Bluetooth để nghe nhạc qua tai nghe, AirDrop để gửi ảnh, nhưng có bao giờ thử so sánh chúng?

Bluetooth và AirDrop: Tưởng giống, hóa ra không

Hé lộ 'bí mật' mã OTP

Mỗi lần bạn đăng nhập hay thanh toán, mã OTP chỉ dùng được trong khoảng 30 giây rồi biến mất. Vì sao lại có giới hạn đó, và hệ thống nào đứng sau việc tạo mã nhanh chóng mà vẫn đảm bảo bảo mật?

Hé lộ 'bí mật' mã OTP

Làm việc thời nay là lúc nào cũng phải online?

Trong thời đại mà sự hiện diện trực tuyến được xem như thước đo cam kết, người lao động ngày càng bị cuốn vào vòng xoáy 'phải luôn online để được nhìn nhận'. Vậy quyền được tắt máy liệu có còn tồn tại?

Làm việc thời nay là lúc nào cũng phải online?

Khi nào công nghệ sạc không dây thay được dây sạc truyền thống?

Ra đời với lời hứa về sự tiện lợi, sạc không dây đến nay vẫn chưa đủ sức thay thế dây sạc truyền thống trong thói quen hằng ngày của người dùng. Công nghệ này liệu có đang chững lại?

Khi nào công nghệ sạc không dây thay được dây sạc truyền thống?

Trợ lý AI giúp tra cứu nhanh thông tin đơn vị hành chính mới

Trợ lý AI hoạt động 24/7 trên máy tính, điện thoại, máy tính bảng, giúp người dùng tra cứu nhanh các thông tin về đơn vị hành chính mới.

Trợ lý AI giúp tra cứu nhanh thông tin đơn vị hành chính mới

Hơn 659.000 vụ tấn công mạng nhằm vào cơ quan, doanh nghiệp Việt, 'tường lửa' nào giúp bảo vệ?

Tại Việt Nam, những năm gần đây ghi nhận hàng loạt vụ tấn công mạng nghiêm trọng, từ ransomware đến đánh cắp dữ liệu qua hình thức lừa đảo (phishing)...

Hơn 659.000 vụ tấn công mạng nhằm vào cơ quan, doanh nghiệp Việt, 'tường lửa' nào giúp bảo vệ?
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar
Đăng ký bằng email
Khi bấm "Đăng ký" đồng thời bạn đã đồng ý với điều khoản của toà soạn Đăng ký
Đăng nhập
Thông tin bạn đọc Thông tin của bạn đọc sẽ được bảo mật an toàn và chỉ sử dụng trong trường hợp toà soạn cần thiết để liên lạc với bạn.
Gửi bình luận
Đóng
Hoàn thành
Đóng

Bình luận (0)
Tối đa: 1500 ký tự
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar