09/11/2019 12:20 GMT+7

Từ chối lương cao, lập start-up chuyển giọng nói thành văn bản chính xác đến 95%

HÀ THANH
HÀ THANH

TTO - Lựa chọn vấn đề kéo dài hàng chục năm nay, một nhóm bạn trẻ tìm ra giải pháp nhận dạng tiếng nói, chuyển thành văn bản chính xác đến 95%, mức giá cá nhân phải chi trả là 1 USD/giờ.

Từ chối lương cao, lập start-up chuyển giọng nói thành văn bản chính xác đến 95% - Ảnh 1.

Anh Hoàng Minh Thành cùng các cộng sự tìm ra giải pháp gỡ băng ghi âm, chuyển đổi giọng nói thành văn bản - Ảnh: HÀ THANH

Giữa tháng 6-2019, hệ thống chuyển giọng nói thành văn bản tự động được thử nghiệm tại kỳ họp thứ 7, Quốc hội khóa XIV. Ngay sau kỳ họp, nhóm VAIS nhận được thư khen của tổng thư ký Quốc hội.

“Sắp tới nhóm tập trung số hóa văn bản audio với khối lượng lớn, hiện tại có thể số hóa tất cả audio trong vòng 1 năm của Đài truyền hình Việt Nam chỉ mất 10 giờ đồng hồ.

HOÀNG MINH THÀNH

Nhận dạng giọng nói 3 miền Bắc - Trung - Nam

Để xử lý bài toán "hóc búa" này, nhóm bạn trẻ Hoàng Minh Thành, Đỗ Quốc Trường cùng các cộng sự sáng lập Công ty TNHH Hệ thống trí thông minh nhân tạo Việt Nam (Vietnam AI System - VAIS) tiên phong với giải pháp gỡ băng ghi âm, chuyển đổi giọng nói thành văn bản (speech-to-text).

Từ nhiều năm nay, đội ngũ nhà báo, phóng viên, thư ký các cuộc họp mất rất nhiều thời gian để gỡ băng ghi âm những phiên họp kéo dài, chưa có phần mềm đáp ứng được chất lượng chuyển giọng nói thành văn bản.

Nắm bắt được thực trạng đó, từ hai năm trước, nhóm của Hoàng Minh Thành (29 tuổi, giám đốc điều hành VAIS) cùng đội ngũ tiến sĩ ở Nhật nghiên cứu giải pháp gỡ băng ghi âm, chuyển đổi giọng nói thành văn bản sử dụng trí thông minh nhân tạo.

"Sản phẩm có độ chính xác ở mức 95,2% khi ở môi trường có hệ thống micro, chất lượng âm thanh đầu vào tốt. Bên cạnh đó, tối ưu giọng nói vùng miền, như 99% với miền Bắc, 85-90% với miền Trung và miền Nam là 90-93%", anh Hoàng Minh Thành giới thiệu.

Giải pháp của VAIS sử dụng hai mô hình chính gồm mô hình âm học và mô hình ngôn ngữ. Anh giải thích: "Ví dụ với câu "Tôi tên là Thành", trong thuật toán mô hình sẽ dự đoán chữ nào đứng trước, chữ nào đứng sau. Một đứa trẻ có thể nghe nhưng không hiểu câu nói đó có nghĩa gì, đơn thuần là mô hình phát âm. Nhưng khi trẻ nghe, hiểu được sẽ viết được, đó là mô hình ngôn ngữ. Chúng tôi còn sử dụng công nghệ Deep-Learning (công nghệ học sâu) và Service-Learning thiên về giải pháp".

Tháng 12-2018, nhóm bạn thử nghiệm thành công giải pháp này, xử lý băng ghi âm tại các cuộc họp có chất lượng âm thanh đầu vào tốt, chứng minh tính chính xác đến 93,6%. Qua quá trình thử nghiệm, đến nay giải pháp này có tỉ lệ chính xác lên đến 95,2% với kho từ vựng lên đến gần 7.000 từ, hoạt động được trên nền tảng web và hỗ trợ nền tảng di động cho cả iOS và Android.

Giải pháp này còn được mở rộng tới thành ủy, tỉnh ủy tại 63 tỉnh, thành trên cả nước, giảm được thời gian gỡ băng đoạn thu âm, giúp lưu trữ, tìm kiếm nội dung ghi âm và bảo mật trên máy chủ riêng của khách hàng.

Sau quá trình thử nghiệm thành công, nhóm bạn mang sản phẩm tham dự cuộc thi VLSP (Vietnamese Language and Speech Processing) - Xử lý ngôn ngữ tự nhiên và tiếng nói cho tiếng Việt, liên tiếp hai năm liền đoạt giải nhất.

1 USD/giờ

Anh Hoàng Minh Thành cho biết hiện có hai nhóm khách hàng sử dụng sản phẩm của VAIS là khách hàng doanh nghiệp thuê theo gói và khách hàng cá nhân chi trả mức phí 1 USD/giờ.

"Tôi nghĩ đây là bài toán chung của một start-up khi tung ra một sản phẩm mới, câu hỏi đầu tiên là khách hàng có muốn trả tiền không? May mắn là chúng tôi chọn vấn đề kéo dài hàng chục năm nay, giải pháp của chúng tôi đang được đón nhận", anh Thành nói.

Vừa qua, tại Đại hội Hội Liên hiệp thanh niên Việt Nam TP Hà Nội, nhóm bạn của Thành mang giải pháp này trưng bày tại khu vực triển lãm thu hút đông đảo phóng viên báo chí đến trải nghiệm.

Cùng với đó, VAIS sẵn sàng tạo tài khoản cho phóng viên và hướng dẫn cách sử dụng nếu họ có nhu cầu muốn được thử nghiệm với giải pháp mới này.

Nhớ lại chặng đường bắt tay thực hiện ý tưởng, anh giám đốc điều hành trẻ tuổi của VAIS cho biết mục tiêu mà anh theo đuổi là thành lập doanh nghiệp, tạo ra giải pháp cho doanh nghiệp ứng dụng AI.

Cùng thời điểm, anh gặp TS Đỗ Quốc Trường (giám đốc công nghệ) vừa từ chối lời đề nghị của Apple, còn anh Thành từ bỏ mức lương cao tại một công ty, tạm xa gia đình ở TP.HCM ra thủ đô tập hợp thành viên theo đuổi dự án.

Khó khăn ban đầu là vốn vì giải pháp nặng về nghiên cứu, anh Thành cùng cộng sự chấp nhận bỏ tiền túi ra trả lương cho nhân viên trong thời gian từ 3-6 tháng tập trung hướng dẫn cho họ về công nghệ này. Hiện tại, sau 2 năm thành lập, VAIS tập hợp 16 thành viên, đầu tư 50% chi phí vào mảng nghiên cứu.

Bạn trẻ gương mặt hiền khô làm lợi cho Viettel hàng trăm tỉ

TTO - Đó là một chàng trưởng phòng với gương mặt hiền khô, vóc dáng mảnh khảnh. Bảy năm trước, chàng là cử nhân hệ kỹ sư tài năng của ĐH Bách khoa Hà Nội vừa tốt nghiệp...

HÀ THANH

Bình luận hay

Chia sẻ

Tuổi Trẻ Online Newsletters

Đăng ký ngay để nhận gói tin tức mới

Tuổi Trẻ Online sẽ gởi đến bạn những tin tức nổi bật nhất

Bình luận (0)
Tối đa: 1500 ký tự

Tin cùng chuyên mục

Đại biểu học lớp 6 làm chatbot, hiến kế cho tập đoàn công nghệ bồi dưỡng nhân tài

Đại biểu dự Đại hội Cháu ngoan Bác Hồ thuộc Đoàn đại biểu TP.HCM học lớp 6 đã làm chatbot, hiến kế cho Tập đoàn Công nghiệp - Viễn thông Quân đội - Viettel bồi dưỡng nhân tài.

Đại biểu học lớp 6 làm chatbot, hiến kế cho tập đoàn công nghệ bồi dưỡng nhân tài

Gặp nam quân nhân với những clip 'đa nhiệm' viral mạng xã hội khi tham gia duyệt binh ở Nga

Không chỉ với nhiệm vụ tham gia duyệt binh tại Nga, nam quân nhân Bùi Quang Linh, quê Thái Bình, còn viral khắp cõi mạng những ngày qua bởi những clip 'đa nhiệm' như làm phóng viên, quay phim, MC, thậm chí làm ca sĩ hát tiếng Trung Quốc…

Gặp nam quân nhân với những clip 'đa nhiệm' viral mạng xã hội khi tham gia duyệt binh ở Nga

Mỹ đã có trường y đầu tiên đưa ChatGPT vào giảng dạy

Trường Y Icahn tại Mount Sinai, New York, trở thành trường y đầu tiên ở Mỹ tích hợp trí tuệ nhân tạo (AI) vào chương trình đào tạo bác sĩ.

Mỹ đã có trường y đầu tiên đưa ChatGPT vào giảng dạy

'Viện dưỡng lão cho người trẻ' nở rộ ở Trung Quốc

Sau nhiều năm bị cuốn vào guồng quay công việc tại các thành phố lớn, nhiều người trẻ Trung Quốc chọn về quê “nghỉ hưu sớm" để tìm lại sự cân bằng và ý nghĩa cuộc sống.

'Viện dưỡng lão cho người trẻ' nở rộ ở Trung Quốc

Bác sĩ kể chuyện cứu cô gái co giật vì tai nạn giữa đêm và dòng chữ ‘lạ’ trên xe

Thấy cô gái nằm bất tỉnh, sùi bọt mép sau vụ tai nạn, bác sĩ Phạm Tiến Mạnh vội tấp xe vào lề để sơ cứu ngay cho nạn nhân. Nhờ xử trí kịp thời, cô gái thoát khỏi cơn nguy kịch.

Bác sĩ kể chuyện cứu cô gái co giật vì tai nạn giữa đêm và dòng chữ ‘lạ’ trên xe

Nghề quét rác thu nhập trên 1 tỉ đồng mỗi năm vẫn bị chê

Theo Forbes, nhiều công việc từng không được xã hội ưa chuộng lại có mức thu nhập rất cạnh tranh và bảo đảm việc làm ổn định trong bối cảnh thị trường lao động đầy bất ổn.

Nghề quét rác thu nhập trên 1 tỉ đồng mỗi năm vẫn bị chê
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar
Đăng ký bằng email
Khi bấm "Đăng ký" đồng thời bạn đã đồng ý với điều khoản của toà soạn Đăng ký
Đăng nhập
Thông tin bạn đọc Thông tin của bạn đọc sẽ được bảo mật an toàn và chỉ sử dụng trong trường hợp toà soạn cần thiết để liên lạc với bạn.
Gửi bình luận
Đóng
Hoàn thành
Đóng

Bình luận (0)
Tối đa: 1500 ký tự
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar