04/01/2018 18:21 GMT+7

Dữ liệu lớn: Biết và chưa biết - Phần 1

ĐẮC LUÂN
ĐẮC LUÂN

TTO - Dữ liệu lớn (big data) dường như đã thành một từ quen thuộc với nhiều người. Song dữ liệu lớn từ đâu mà có, ưu và nhược điểm của nó là gì thì không phải ai cũng biết.

Dữ liệu lớn: Biết và chưa biết - Phần 1 - Ảnh 1.

Ảnh: CROSSING TECHNOLOGIES

Trong cuốn sách "Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really" (tạm dịch: Mọi người đều nói dối:  dữ liệu lớn, dữ liệu mới và những gì Internet có thể nói với chúng ta rằng chúng ta thực sự là như thế nào) của tác giả Seth Stephens-Davidowitz đã bàn về rất nhiều vấn đề khác nhau liên quan tới dữ liệu lớn.

Qua đó tiết lộ những thông tin thú vị về tâm lý, hành vi và cả những tính khí kỳ quặc của con người. Và từ đó có thể thấy, con người nói chung thường không mấy khi sẵn lòng chia sẻ về những hi vọng cũng như khao khát của cá nhân họ với người khác.

Seth Stephens-Davidowitz là một chuyên gia trong lĩnh vực dữ liệu Internet nói chung và dữ liệu lớn nói riêng. Ông đã tốt nghiệp 2 trường đại học Stanford và Harvard, đồng thời trước đây đã từng là chuyên gia khoa học về dữ liệu tại Google.

Trong khuôn khổ của Tuổi Trẻ Online, chúng tôi tóm lược những nội dung chính trong cuốn sách của chuyên gia này để bạn đọc có cái nhìn tổng quát, song cũng hết sức thú vị về dữ liệu lớn (big data).

Dữ liệu lớn: Biết và chưa biết - Phần 1 - Ảnh 2.

Ảnh: RIDEROUNDTRIP

Vén "bức màn" dữ liệu lớn

Thành thực mà nói, bất kể việc chúng ta trung thực tới mức nào với những người xung quanh,  ở một chừng mực nhất định chúng ta vẫn sẽ có lúc nói dối.

Cho dù đó là khi ta nói quá lên về những tính cách nhân hậu của mình trong một cuộc điều tra về lối sống, hay không thực lòng khi kể về những hành xử kỳ quặc ta vẫn thường làm khi không có ai khác ở bên.

Nhìn chung mọi người vẫn thường có những hành xử không trung thực ở mức độ nào đó trong cuộc sống hàng ngày.

Tuy nhiên với những khối lượng dữ liệu được thu thập đang ngày càng tăng lên rất nhanh, chẳng hạn như các cú pháp tìm kiếm trên Google (như cách mà Google vẫn thường tổng kết vào mỗi dịp cuối năm), chúng ta đã có thể "quan sát" thật sâu vào phía dưới bề mặt của thực tế đời sống để nhìn ra sự thật.

Với một sự tích tụ dữ liệu lớn tới mức gần như không tưởng về vô số các khía cạnh hành xử của con người, một khối lượng lớn thông tin được thu thập được gọi là dữ liệu lớn sẽ giúp các nhà chuyên môn phân tích, làm rõ các khía cạnh trong hành xử của mỗi người và chỉ ra những sự thật chúng ta chưa từng biết trước đây.

Dữ liệu lớn: Biết và chưa biết - Phần 1 - Ảnh 3.

Ảnh minh họa - Ảnh: FREEPIK

Dữ liệu lớn cảm tính hơn bạn nghĩ

Nhiều người đã nghe nói về dữ liệu lớn nhưng thực chất dữ liệu lớn là gì?

Đúng như tên gọi của nó, dữ liệu lớn là khái niệm dùng để chỉ một khối lượng dữ liệu khổng lồ. Mức độ khổng lồ của dữ liệu lớn tới mức bộ não con người hầu như không thể hiểu được.

Nói cách khác, dữ liệu lớn là một loại dữ liệu mà để xử lý, phân tích và nhận diện các khía cạnh thông tin rút ra từ nó sẽ cần phải dùng tới năng lực xử lý của các hệ thống máy tính/siêu máy tính.

Nhưng có một điều nghịch lý là, bất kể mức độ rất khủng của khối lượng dữ liệu, khoa học dữ liệu lại có một phương diễn rất cảm tính. Thực vậy, nếu bạn nghĩ về khía cạnh này, dường như tất cả chúng ta đều là các nhà khoa học dữ liệu theo một cách nào đó.

Mặc dù khoa học dữ liệu là một quá trình mang tính chất cảm tính, nhưng bản thân sự cảm tính lại không thực sự là khoa học. Đó là vì sao mà việc sử dụng các dữ liệu thu thập một cách chính xác là điều rất cần thiết trong việc giúp định hình thế giới quan của con người.

Nó giúp con người nhìn nhận sự việc có cơ sở và chính xác hơn, thay vì chỉ dựa vào cảm tính mà rất nhiều khi bị chi phối bởi những thiên vị vô hình không thể kiểm soát.

Dữ liệu cung cấp cho chúng ta cơ sở để có thể khẳng định hay phủ định những nhận định mang tính trực giác bắt đầu. Nó cũng giúp chúng ta có được những dự đoán và quan điểm chính xác hơn thay vì chỉ căn cứ vào những trải nghiệm cá nhân.

Ghi chú: Google là ví dụ tiêu biểu cho thế dữ liệu lớn có thể thường xuyên cung cấp những thông tin mới cho chúng ta. Ở phần sau của loạt bài, chúng ta sẽ tìm hiểu lý do vì sao như vậy.

ĐẮC LUÂN

Bình luận hay

Chia sẻ

Tuổi Trẻ Online Newsletters

Đăng ký ngay để nhận gói tin tức mới

Tuổi Trẻ Online sẽ gởi đến bạn những tin tức nổi bật nhất

Bình luận (0)
Tối đa: 1500 ký tự

Tin cùng chuyên mục

Tập đoàn Điện lực Việt Nam cảnh báo fanpage tuyển dụng giả mạo

Tập đoàn Điện lực Việt Nam khẳng định trang fanpage có tên "Kênh việc làm EVN" với 6.000 lượt tài khoản theo dõi là giả mạo và sử dụng trái phép thương hiệu EVN.

Tập đoàn Điện lực Việt Nam cảnh báo fanpage tuyển dụng giả mạo

Trang tuyển sinh đầu cấp quá tải, TP.HCM bổ sung địa chỉ dự phòng

Nếu không vô được trang tuyển sinh đầu cấp: tuyensinhdaucap.hcm.edu.vn; phụ huynh có thể sử dụng trang dự phòng: tuyensinhdaucap2025.hcm.edu.vn.

Trang tuyển sinh đầu cấp quá tải, TP.HCM bổ sung địa chỉ dự phòng

Thực hư việc robot hút bụi làm lộ hình ảnh riêng tư của người dùng

Sự cố rò rỉ hình ảnh từ robot hút bụi Roomba đang làm dấy lên các cuộc tranh luận về quyền riêng tư và cách các thiết bị gia dụng thông minh thu thập, xử lý dữ liệu người dùng.

Thực hư việc robot hút bụi làm lộ hình ảnh riêng tư của người dùng

Robot hình người: Cơ hội hay thách thức?

Cuộc đua phát triển robot hình người đang diễn ra sôi động, với Trung Quốc dẫn đầu, nhằm giải quyết vấn đề suy giảm dân số và tăng năng suất lao động, song cũng đặt ra nhiều thách thức cho thị trường việc làm toàn cầu.

Robot hình người: Cơ hội hay thách thức?

Start-up làm pin từ cát nhận vốn đầu tư 1 triệu USD

Alternō - start-up công nghệ khí hậu vừa gọi vốn 1 triệu USD từ các nhà đầu tư nước ngoài để tiếp tục mở rộng giải pháp lưu trữ năng lượng thông qua pin cát.

Start-up làm pin từ cát nhận vốn đầu tư 1 triệu USD

TP.HCM cùng Bình Dương, Bà Rịa - Vũng Tàu chuẩn bị hạ tầng số, đảm bảo vận hành sau sáp nhập

UBND TP.HCM giao Sở Khoa học và Công nghệ làm việc với tỉnh Bình Dương và Bà Rịa - Vũng Tàu rà soát, chuẩn bị hạ tầng, giải pháp kỹ thuật khi sáp nhập vào TP.HCM.

TP.HCM cùng Bình Dương, Bà Rịa - Vũng Tàu chuẩn bị hạ tầng số, đảm bảo vận hành sau sáp nhập
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar
Đăng ký bằng email
Khi bấm "Đăng ký" đồng thời bạn đã đồng ý với điều khoản của toà soạn Đăng ký
Đăng nhập
Thông tin bạn đọc Thông tin của bạn đọc sẽ được bảo mật an toàn và chỉ sử dụng trong trường hợp toà soạn cần thiết để liên lạc với bạn.
Gửi bình luận
Đóng
Hoàn thành
Đóng

Bình luận (0)
Tối đa: 1500 ký tự
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar