07/01/2018 10:30 GMT+7

Dữ liệu lớn: Biết và chưa biết - Phần 2

ĐẮC LUÂN
ĐẮC LUÂN

TTO - Khoa học dữ liệu là một công cụ hữu ích, nhưng điều khiến nó trở nên đặc biệt không phải quy mô dữ liệu thu thập được, mà chính là bản thân dữ liệu đó là hữu ích.

Dữ liệu lớn: Biết và chưa biết - Phần 2 - Ảnh 1.

Ảnh minh hoạt - Ảnh: GETTY IMAGES

Nói cách khác, vấn đề đáng quan tâm nhất chính là ở chỗ, dữ liệu thu thập được có thể tiết lộ những khía cạnh thông tin nào giúp chúng ta đưa ra những phán đoán hay nhận định về một sự việc hay vấn đề nào đó.

Dữ liệu lớn tạo ra thông tin mới

Trong trường hợp này, Google là một ví dụ tiêu biểu. Cỗ máy tìm kiếm do hai nhà đồng sáng lập Google là Larry Page và Sergey Brin phát triển năm 1998 sở dĩ trở thành công cụ tìm kiếm phổ biến nhất thế giới như hiện nay không đơn giản chỉ vì chúng có khả năng thu thập được rất nhiều dữ liệu.

Hơn cả quy mô dữ liệu thu thập, điều khiến Google khác biệt chính là những dữ liệu mà nó có thể thu thập được và cách thức để chúng có thể được sử dụng một cách hiệu quả cho các lĩnh vực như kinh doanh, nghiên cứu,….

Trước thời của Google, chẳng hạn khi bạn đánh cụm từ khóa tìm kiếm "Bill Clinton" trong một công cụ tìm kiếm, bạn sẽ chỉ thu được kết quả là những trang web xuất hiện cụm từ này nhiều hơn. Và thường thì bạn sẽ nhận được cả một đống những kết quả không liên quan gì tới mong muốn tra cứu thông tin của mình.

Thuật toán của hai nhà sáng lập Google, Brin và Page, hoạt động theo cách hoàn toàn khác. Họ nhận ra rằng, một trang web có khả năng liên quan tới một ai đó nhiều hơn nếu nó chứa nhiều đường link hơn với các trang khác đã kết nối một người dùng truy cập vào trang đó.

Theo đó, trang web Nhà Trắng chính thức của Bill Clinton, vốn là đích đến của hàng ngàn đường link khác nhau, sẽ là là trang hữu dụng hơn so với một trang web gồm 100 đường link, mặc dù trang web đó có thể đề cập tới tên của Bill Clinton nhiều hơn.

Theo đó, các nhà sáng lập Google đã tập hợp dữ liệu về các đường link này, từ đây, họ có thể nhận ra những mô thức quen thuộc và dự đoán được loại thông tin nào liên quan nhất với người dùng.

Cách tiếp cận của Google là một ví dụ rõ ràng nhất giải thích cho lý do đầu tiên vì sao dữ liệu lớn lại quyền lực đến vậy: dữ liệu lớn hoàn toàn mới mẻ. Nó cung cấp cho chúng ta luồng thông tin mới liên tục.

Trước thời đại của dữ liệu lớn, bạn sẽ phải chờ Tổng cục thống kê lao động thu thập và tính toán tỉ lệ thất nghiệp thông qua các cuộc điều tra qua điện thoại, hoặc chờ một báo cáo của Trung tâm kiểm soát và phòng chống dịch bệnh để biết tỉ lệ lây nhiễm của một loại bệnh tật nào đó.

Nhưng nay, bạn hoàn toàn có khả năng sử dụng dữ liệu lớn của Google để theo dõi cả hai vấn đề này, và đó chính xác là những gì mà kỹ sư Jeremy Ginsber của Google đã làm.

Kỹ sư Jeremy Ginsber đã chứng tỏ rằng các cú pháp tìm kiếm trên Google liên quan tới bệnh cúm, chẳng hạn cụm từ "flu symtoms" là dấu hiệu cho thấy sự lây lan của dịch cúm, và có thể được dùng để theo dõi sự lây lan của căn bệnh theo các khu vực địa lý khác nhau và theo thời gian.

Dữ liệu lớn: Biết và chưa biết - Phần 2 - Ảnh 2.

Ảnh: CUELOGIC

Dữ liệu lớn không nói dối

Gần đây các cử nhân đại học Maryland đã tham gia cuộc khảo sát về điểm trung bình đánh giá sinh viên GPA. Trong số những người tham gia khảo sát, 2% thừa nhận họ tốt nghiệp với điểm GPA thấp hơn 2,5 điểm trong thang 4 điểm.

Tuy nhiên theo các hồ sơ chính thức, tỉ lệ này cao hơn nhiều, 11%.

Mặc dù đây chỉ là một ví dụ, nhưng nó cũng chứng tỏ một sự thật mang tính phổ quát thường xảy ra trong các cuộc điều tra: mọi người thường nói dối.

Theo một lẽ rất tự nhiên, chúng ta thường muốn mình là người tốt đẹp, cả với chính mình và trong đánh giá của người khác. Do đó người ta thường tự điều chỉnh các câu trả lời của họ nhằm có được một góc nhìn tích cực hơn về bản thân.

Tuy nhiên điều này cũng đưa chúng ta tới một lý do thứ hai cho thấy vì sao dữ liệu lớn lại quyền lực: Nó không nói dối.

Vì là dữ liệu được thu thập thông qua các hành vi ứng xử không qua "cơ chế lọc" nào, nó luôn tiết lộ sự thật. Thêm nữa người ta cũng ít có xu hướng nói dối hay "bóp méo" kết quả khi nhập các từ khóa tìm kiếm trong lúc không có câu hỏi nào liên quan tới chúng đặt ra với họ.

Chúng ta sẽ cùng xem xét chủ đề được cho là rất nhạy cảm như kích thích tình dục ở vùng hậu môn (anal play). Liệu rằng sẽ có bao nhiêu người thừa nhận trong một cuộc điều tra hay phỏng vấn rằng họ thích sử dụng một kỹ xảo nào đó trong "trò chơi" này? Điều đó còn tùy thuộc vào cuộc điều tra, nhưng có thể đoán trước rằng có lẽ sẽ không ai thừa nhận cả.

Ấy thế nhưng khi tác giả Seth Stephens-Davidowitz phân tích dữ liệu từ trang web khiêu dâm PornHub, ông phát hiện thấy đã có một số phụ nữ tìm kiếm từ khóa "anal apple". Điều này là minh chứng cho thấy dữ liệu lớn có thể tiết lộ một số điều bất ngờ về mọi người mà có thể họ không muốn chia sẻ trực tiếp với người khác.

Ghi chú: Có một thực tế thú vị mà tác giả Seth Stephens-Davidowitz tiếp tục chỉ ra đó là "dữ liệu lớn" sẽ giúp chúng ta hiểu hơn các "dữ liệu nhỏ". Cụ thể điều này ra sao, mời các bạn đọc tiếp ở phần 3 của loạt bài này.



ĐẮC LUÂN

Bình luận hay

Chia sẻ

Tuổi Trẻ Online Newsletters

Đăng ký ngay để nhận gói tin tức mới

Tuổi Trẻ Online sẽ gởi đến bạn những tin tức nổi bật nhất

Bình luận (0)
Tối đa: 1500 ký tự

Tin cùng chuyên mục

Mua thiết bị thông minh giá rẻ cần lưu ý gì?

Thiết bị thông minh giá rẻ đang ngày càng phổ biến. Nhưng chúng cũng đi kèm nguy cơ, nhất là với những người dùng 'hồn nhiên' trao niềm tin vào sản phẩm mà quên kiểm tra bảo mật.

Mua thiết bị thông minh giá rẻ cần lưu ý gì?

Hàng loạt giải pháp hỗ trợ cán bộ và người dân thực hiện chính quyền địa phương 2 cấp

Quá trình thực hiện chính quyền địa phương 2 cấp, nhiều đơn vị thực hiện triển khai hỗ trợ cán bộ địa phương, tích hợp AI giúp người dân tra cứu thông tin.

Hàng loạt giải pháp hỗ trợ cán bộ và người dân thực hiện chính quyền địa phương 2 cấp

Captcha hoạt động ra sao mà biết bạn không phải robot?

Bạn bấm vào ô xác nhận Captcha 'Tôi không phải là người máy', rồi tiếp tục như không có gì. Nhưng bạn không biết ngay khoảnh khắc đó, Google đang âm thầm đánh giá bạn dựa trên vô số tín hiệu tưởng chừng vô hình.

Captcha hoạt động ra sao mà biết bạn không phải robot?

Hệ sinh thái an ninh mạng của người Việt tích hợp cập nhật thông tin tình báo

Hệ sinh thái sản phẩm an ninh mạng NCS giúp các cơ quan, doanh nghiệp xây dựng nền tảng bảo mật vững chắc, tích hợp AI và thông tin tình báo liên tục được cập nhật với vai trò cảnh báo sớm.

Hệ sinh thái an ninh mạng của người Việt tích hợp cập nhật thông tin tình báo

AI là bạn hay thù đối với sinh viên mới ra trường?

Trí tuệ nhân tạo vừa mang đến cơ hội nghề nghiệp mới, vừa đe dọa việc làm truyền thống của sinh viên. Biết khai thác AI hiệu quả sẽ giúp thế hệ trẻ biến thách thức thành lợi thế.

AI là bạn hay thù đối với sinh viên mới ra trường?

Khóc, cười hết nước mắt khi 'gặp' người thân, thấy nhà xưa qua Google Maps

Nhiều người vào Google Maps để xem lại ngôi nhà xưa, để rồi từ đó tìm lại được nhiều cảm xúc đặc biệt.

Khóc, cười hết nước mắt khi 'gặp' người thân, thấy nhà xưa qua Google Maps
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar
Đăng ký bằng email
Khi bấm "Đăng ký" đồng thời bạn đã đồng ý với điều khoản của toà soạn Đăng ký
Đăng nhập
Thông tin bạn đọc Thông tin của bạn đọc sẽ được bảo mật an toàn và chỉ sử dụng trong trường hợp toà soạn cần thiết để liên lạc với bạn.
Gửi bình luận
Đóng
Hoàn thành
Đóng

Bình luận (0)
Tối đa: 1500 ký tự
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar