10/01/2018 18:34 GMT+7

Dữ liệu lớn: Biết và chưa biết - Phần cuối

ĐẮC LUÂN
ĐẮC LUÂN

TTO - Dữ liệu lớn đương nhiên không hoàn hảo. Trong một số trường hợp, nó rất dễ thay đổi và tiềm ẩn những nguy cơ chưa thể đo đếm hết.

Dữ liệu lớn: Biết và chưa biết - Phần cuối - Ảnh 1.

Ảnh: SMART DATA COLLECTIVE

Mặc dù có những lợi thế nhất định với dữ liệu lớn, nhưng đương nhiên ai cũng hiểu nó không phải là một cái gì đó "không tì vết".

Hạn chế lớn nhất của dữ liệu lớn trở nên vô cùng rõ ràng trong các bộ dữ liệu thu thập vốn có quá nhiều yếu tố dễ thay đổi. Theo đó khiến giới chuyên môn rất khó có thể rút ra những câu trả lời đáng tin cậy vì đặc điểm này khiến việc tìm ra những kết luận trở nên rất khó khăn.

Thường xuyên thay đổi

Tác giả Seth Stephens-Davidowitz dẫn ví dụ về công trình nghiên cứu của nhà di truyền học hành vi Robert Plomin. Năm 1998 nhà khoa học này cho rằng mình đã khám phá ra một loại gene là IGF2r, yếu tố chỉ thị của chỉ số thông minh IQ của con người.

Ông đã nhận được các bộ dữ liệu tập hợp từ vài trăm sinh viên bao gồm thông tin về bảng mã DNA và chỉ số IQ. Ông Plomin so sánh DNA của họ với các chỉ số IQ thấp và cao, rồi nhận thấy gene IGF2r có tỉ lệ xuất hiện nhiều gấp đôi ở những sinh viên có IQ cao.

Thật không may, mối liên hệ được khám phá trong nghiên cứu của ông Plomin chỉ là một kết quả ngẫu nhiên và may mắn đạt được. Vài năm sau, khi ông Plomin lặp lại nghiên cứu so sánh dữ liệu này, ông đã không tìm thấy mối liên hệ giữa chỉ số IQ và gene IGF2r nữa.

Không khó để hiểu vì sao xảy ra chuyện này. Bộ gene người chứa hàng ngàn gene, nếu mối liên hệ đó đã từng xảy ra, nó hoàn toàn có thể xảy ra trong một tình huống ngẫu nhiên. Có nhiều yếu tố thường xuyên thay đổi khiến vào một thời điểm đã làm xuất hiện khả năng này.

Ngoài ra cũng còn một nhược điểm khác nữa với dữ liệu lớn nữa chính là ở chỗ nó thiếu cái gọi là "dữ liệu nhỏ", một loại dữ liệu liên quan tới trải nghiệm của con người.

Những loại dữ liệu lớn có thể đo lường được là rất nhiều, song đôi khi những dữ liệu có thể đo lường được lại không phải là những thông tin chúng ta đang muốn tìm kiếm.

Chẳng hạn, Facebook có thể dễ dàng đo đếm được số lượt click và like trên mạng xã hội này trên cơ sở dữ liệu lớn, nhưng việc đó không nói lên được điều gì giúp họ hiểu rõ trải nghiệm của người dùng với trang của mình.

Trong những tình huống như thế, dữ liệu nhỏ lại đặc biệt quan trọng. Do đó Facebook đã thu thập loại dữ liệu này thông qua các phương pháp khác, còn được gọi là các khảo sát quy mô nhỏ hơn. Họ tham khảo ý kiến người dùng về quan điểm cũng như trải nghiệm bản thân trong lúc sử dụng mạng xã hội này.

Ngoài ra Facebook cũng thuê các nhà tâm lý học và xã hội học hỗ trợ họ trong việc đo lường được các trải nghiệm người dùng vốn không thể đo lường được thông qua dữ liệu lớn.

Điều này thêm một lần nữa cho thấy dữ liệu lớn không hề hoàn hảo và những rắc rối như vậy sẽ tiếp tục diễn ra sâu sắc hơn.

Dữ liệu lớn: Biết và chưa biết - Phần cuối - Ảnh 3.

Ảnh: MCKINSEY

Chính phủ không nên dùng dữ liệu lớn kiểm soát công dân

Mỗi khi bạn gõ thông tin tìm kiếm trong Google hay mua sắm một sản phẩm nào đó qua mạng, bạn đang góp một phần dữ liệu vào kho dữ liệu lớn.

Chuyện gì sẽ xảy ra nếu các chính phủ có quyền tiếp cận những dữ liệu này? Họ có thể làm gì với chúng?

Chẳng hạn, một ai đó gõ câu "Tôi muốn tự tử" vào một công cụ tìm kiếm. Liệu có cần thông báo với cảnh sát địa phương thông tin này không?

Trong những trường hợp như thế, nhà chức trách không làm và cũng không thể làm gì ở cấp độ cá nhân, và có lý do hợp lý cho điều đó.

Mỗi tháng có khoảng 3,5 triệu lượt tìm kiếm liên quan tới chuyện tự tử trên Google ở Mỹ. Trong khi đó, số vụ tử tự ở nước này chưa tới 4.000 vụ một tháng.

Điều này cho thấy, nếu cứ mỗi lần phát hiện một ai đó tìm kiếm thông tin tự tử, người ta lại báo cho cảnh sát địa phương thì việc này sẽ gây tốn kém rất lớn về nhân lực và vật lực với cảnh sát để giải quyết những vụ việc như vậy.

Bên cạnh đó vẫn còn một khía cạnh đạo đức nữa mà mọi người đều quan tâm, đó là việc các chính phủ có nên được phép sở hữu và sử dụng các dữ liệu người dùng không? Điều này sẽ là sự vi phạm quyền riêng tư.

Tuy nhiên những lo ngại này vẫn không thể ngăn các chính phủ ngừng sử dụng dữ liệu lớn ở cấp độ khu vực, nhất là khi ngày càng có thêm nhiều chứng cứ cho thấy có sự liên đới giữa các nội dung tìm kiếm trên mạng và các hành động diễn ra sau đó.

Ở một phương diện khác, các nhà chức trách và cảnh sát địa phương vẫn có cách khai thác dữ liệu lớn phù hợp để phục vụ xã hội tốt hơn. Chẳng hạn họ có thể sử dụng nó trong các chương trình phòng chống tự tử ở những khu vực cụ thể thuộc cấp độ thành phố hay bang.

Họ cũng có thể tuyên truyền thông tin thông qua các quảng cáo trên đài phát thanh và đài truyền hình như việc cung cấp địa chỉ cần liên lạc hay những nhà chức trách mà người dân có thể liên hệ khi biết ai đó cần giúp đỡ.

Như vậy có thể thấy, ngoài việc tiết lộ những thông tin thú vị về con người, dữ liệu lớn cũng có thể được sử dụng hiệu quả trong các tình huống đời thường nếu được vận dụng phù hợp.

Dữ liệu lớn: Biết và chưa biết - Phần cuối - Ảnh 4.

Ảnh: ZADARA STORAGE

Vài kết luận

Từ những thông tin về dữ liệu lớn, có thể thấy con người hiếm khi trả lời các câu hỏi khảo sát, thăm dò một cách trung thực, theo đó cũng góp phần "bóp méo" sự hiểu biết của chúng ta về thế giới xung quanh.

Tuy nhiên cùng với sự phát triển của dữ liệu lớn, nhờ sự thu thập dữ liệu từ các công cụ tìm kiếm như Google, giờ đây chúng ta có thể nhận ra những dạng thức trong hành xử con người, hiểu rõ những điều trước đây ta chưa từng biết.

Cùng với đó, chúng ta cũng tự tin hơn nếu thấy bản thân mình có những suy nghĩ và hành xử có thể hơi kỳ cục, khác với số đông. Vì cũng như bạn, có thể ai đó khác cũng giống bạn, nhưng chưa từng thừa nhận công khai suy nghĩ và hành xử đúng như con người thật của họ. Vậy nên hãy cứ yên tâm là mình, bạn nhé!

ĐẮC LUÂN

Bình luận hay

Chia sẻ

Tuổi Trẻ Online Newsletters

Đăng ký ngay để nhận gói tin tức mới

Tuổi Trẻ Online sẽ gởi đến bạn những tin tức nổi bật nhất

Bình luận (0)
Tối đa: 1500 ký tự

Tin cùng chuyên mục

Tập đoàn Điện lực Việt Nam cảnh báo fanpage tuyển dụng giả mạo

Tập đoàn Điện lực Việt Nam khẳng định trang fanpage có tên "Kênh việc làm EVN" với 6.000 lượt tài khoản theo dõi là giả mạo và sử dụng trái phép thương hiệu EVN.

Tập đoàn Điện lực Việt Nam cảnh báo fanpage tuyển dụng giả mạo

Công bố 32 sản phẩm khoa học công nghệ tiêu biểu trên cổng thông tin đổi mới sáng tạo

Sau hơn 1 tháng ra mắt, cổng thông tin điện tử nq57.mst.gov.vn đã tiếp nhận 426 hồ sơ sản phẩm, giải pháp, trong đó 71 sản phẩm, giải pháp hữu ích đã được công bố.

Công bố 32 sản phẩm khoa học công nghệ tiêu biểu trên cổng thông tin đổi mới sáng tạo

Bí thư Cao Bằng: Chỉ vô tình chạm vào quảng cáo mua nhà, nhận ngay 50 cuộc gọi giới thiệu

Bí thư tỉnh Cao Bằng Quản Minh Cường đã dẫn chứng nội dung này để nói về tình trạng lộ lọt, lợi dụng dữ liệu cá nhân đang là vấn đề rất bức xúc, nóng hổi.

Bí thư Cao Bằng: Chỉ vô tình chạm vào quảng cáo mua nhà, nhận ngay 50 cuộc gọi giới thiệu

Hành trình tiến vào chung kết Đấu Trường Danh Vọng Mùa Xuân 2025 của FPT x Flash

Vượt qua nhiều thử thách, FPT x Flash sẽ có mặt tại vòng chung kết tổng giải đấu Liên Quân Mobile chuyên nghiệp cấp cao nhất tại Việt Nam.

Hành trình tiến vào chung kết Đấu Trường Danh Vọng Mùa Xuân 2025 của FPT x Flash

Smartphone tầm trung đua nhau ‘chào sân’ thị trường Việt Nam

Những chiếc smartphone tầm trung giá 10 triệu đồng, thậm chí thấp hơn, với nhiều tính năng công nghệ xịn sò được một loạt hãng điện thoại đua nhau ‘chào sân’ thị trường Việt Nam.

Smartphone tầm trung đua nhau ‘chào sân’ thị trường Việt Nam

Robot Optimus của Tesla có nguy cơ chậm ra mắt vì Trung Quốc

Tham vọng chinh phục thế giới robot hình người của Hãng xe điện Tesla (Mỹ) đang gặp trở ngại lớn, do chính sách xuất khẩu mới nhất của Trung Quốc.

Robot Optimus của Tesla có nguy cơ chậm ra mắt vì Trung Quốc
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar
Đăng ký bằng email
Khi bấm "Đăng ký" đồng thời bạn đã đồng ý với điều khoản của toà soạn Đăng ký
Đăng nhập
Thông tin bạn đọc Thông tin của bạn đọc sẽ được bảo mật an toàn và chỉ sử dụng trong trường hợp toà soạn cần thiết để liên lạc với bạn.
Gửi bình luận
Đóng
Hoàn thành
Đóng

Bình luận (0)
Tối đa: 1500 ký tự
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar