08/01/2018 09:59 GMT+7

Dữ liệu lớn: Biết và chưa biết - Phần 3

ĐẮC LUÂN
ĐẮC LUÂN

TTO - Một điểm được cho là quyền lực thứ 3 của dữ liệu lớn: Với quy mô “khủng” của nó, chúng ta có thể soi rọi vào các nhóm dữ liệu nhỏ hơn và trích xuất được thông tin tin cậy từ đó.

Dữ liệu lớn: Biết và chưa biết - Phần 3 - Ảnh 1.

Ảnh minh họa - Ảnh: INMA

Chưa kể tới các công cụ tìm kiếm trên mạng khác, chỉ riêng Google thôi mỗi ngày cũng đã tích tụ một khối lượng dữ liệu rất khổng lồ rồi. Với khối lượng dữ liệu đó, giờ đây chúng ta có thể tiến hành những việc mà ta chưa bao giờ có thể làm được trước đây.

Biết "lớn" để hiểu "nhỏ"

Một ví dụ nhỏ trong thực tế để chúng ta có thể hiểu hơn về luận điểm này của tác giả Seth Stephens-Davidowitz. Ông dẫn ra câu chuyện một giáo sư đại học Harvard tên là Raj Chetty muốn điều tra xem liệu những người mang trong lòng "giấc mơ Mỹ" còn tồn tại hay không.

Ông quyết định sử dụng dữ liệu lớn hỗ trợ để tìm câu trả lời cho một câu hỏi chính xác hơn: những người có cha mẹ nghèo khi lớn lên có thể trở thành những người giàu có tự thân không?

Nhóm nghiên cứu của ông Chetty đã sử dụng các hồ sơ chứng từ thuế do cơ quan thuế vụ Mỹ thu thập. Dữ liệu lớn cho thấy, khi so sánh với các quốc gia phát triển khác như Đan Mạch và Canada, tình hình ở nước Mỹ không đem lại hy vọng tuyệt vời cho những người nghèo.

Một người nghèo ở Mỹ chỉ có khoảng 7,5% cơ hội gặt hái được thành công trong lĩnh vực nghề nghiệp họ chọn. Tuy nhiên với người Đan Mạch và người Canada, cơ hội đó lần lượt là 11,7% và 13,5%.

Đó là bức tranh tổng quát, nhưng điểm thú vị là giáo sư Chetty đã có thể "soi chiếu" dữ liệu đó ở các các độ nhỏ hơn như các bang, các thành phố, thị trấn và các khu vực khác nhau.

Khi làm như vậy, ông nhận thấy dữ liệu tiết lộ thông tin là giấc mơ Mỹ thực sự vẫn tồn tại, nhưng chỉ ở một vài nơi.

Tại San Jose, California, một người Mỹ nghèo có 12,9% cơ hội trở nên giàu có. Tỉ lệ này còn tốt hơn ở Đan Mạch. Tuy nhiên với một người Mỹ lớn lên tại vùng Charlotte, bang North Carolina, cơ hội thành công của họ chỉ là 4,4%.

Điều này cho thấy dữ liệu lớn có khả năng soi chiếu dữ liệu ở quy mô nhỏ hơn, từ đó giúp chúng ta hiểu hơn về thế giới xung quanh, bất kể quy mô tiếp cận dữ liệu như thế nào.

Dữ liệu lớn: Biết và chưa biết - Phần 3 - Ảnh 2.

Ảnh: GETTY IMAGES

Dữ liệu lớn giúp khảo sát đơn giản và tiết kiệm hơn

Hàng ngày chúng ta tiếp xúc với rất nhiều thông tin về sự liên đới giữa các sự việc, giữa các dữ kiện thông tin với nhau.

Chẳng hạn, loại thực phẩm nào đó có liên quan tới một chứng bệnh nguy hiểm, hay một thói quen có liên quan tới sự thành công của một doanh nhân, chính trị gia thành đạt.

Những mối liên hệ này thoạt nghe dường như khá tin cậy. Nhưng không phải lúc nào chúng cũng là những mối liên hệ có tính nguyên nhân - hệ quả.

Thử nghiệm A/B (A/B testing) là quy trình thử nghiệm mà trong đó hai phiên bản A và B sẽ được cùng so sánh trong một môi trường/tình huống để qua đó đánh giá xem phiên bản nào hiệu quả hơn.

Dữ liệu lớn khiến việc tiến hành các thử nghiệm A/B dễ dàng hơn, vày đây là lý do thứ tư khiến dữ liệu lớn trở nên quyền lực.

Trước thời của dữ liệu lớn, việc thực hiện các thử nghiệm A/B có nhu cầu rất lớn. Chẳng hạn, để kiểm nghiệm hiệu quả tác động của một đoạn quảng cáo, một công ty sẽ phải tuyển những người tham gia, tiến hành khảo sát phản hồi của họ rồi phân tích kết quả.

Tuy nhiên với dữ liệu lớn, các nhà khoa học dữ liệu có thể viết một chương trình để phân tích dữ liệu từ các cuộc thử nghiệm A/B.

Chiến dịch tranh cử tổng thống năm 2008 của tổng thống Barack Obama nổi tiếng là đã sử dụng thành công cách tiếp cận này.

Khi đó, các nhà quản lý phụ trách chiến dịch tranh cử của ông Obama muốn thiết kế một trang web có mục tiêu thu hút mọi người đăng ký thành viên và quyên tặng tiền ủng hộ ứng cử viên tổng thống.

Họ đã sử dụng các kết hợp khác nhau của hình ảnh và chữ viết, sau đó sử dụng các dữ liệu lớn liên quan để tìm ra được cách trình bày nào thành công nhất và đưa vào sử dụng.

Ghi chú: Dữ liệu lớn không phải lúc nào cũng giúp đem lại quản lý chính xác mặc dù nó "không nói dối". Cùng với đó, nó cũng có những phương diện tiêu cực mà ở phần tiếp theo của loạt bài này, chúng ta sẽ cùng tìm hiểu, mời các bạn đón đọc.

>> 
     

ĐẮC LUÂN

Bình luận hay

Chia sẻ

Tuổi Trẻ Online Newsletters

Đăng ký ngay để nhận gói tin tức mới

Tuổi Trẻ Online sẽ gởi đến bạn những tin tức nổi bật nhất

Bình luận (0)
Tối đa: 1500 ký tự

Tin cùng chuyên mục

Tập đoàn Điện lực Việt Nam cảnh báo fanpage tuyển dụng giả mạo

Tập đoàn Điện lực Việt Nam khẳng định trang fanpage có tên "Kênh việc làm EVN" với 6.000 lượt tài khoản theo dõi là giả mạo và sử dụng trái phép thương hiệu EVN.

Tập đoàn Điện lực Việt Nam cảnh báo fanpage tuyển dụng giả mạo

Trang tuyển sinh đầu cấp quá tải, TP.HCM bổ sung địa chỉ dự phòng

Nếu không vô được trang tuyển sinh đầu cấp: tuyensinhdaucap.hcm.edu.vn; phụ huynh có thể sử dụng trang dự phòng: tuyensinhdaucap2025.hcm.edu.vn.

Trang tuyển sinh đầu cấp quá tải, TP.HCM bổ sung địa chỉ dự phòng

Thực hư việc robot hút bụi làm lộ hình ảnh riêng tư của người dùng

Sự cố rò rỉ hình ảnh từ robot hút bụi Roomba đang làm dấy lên các cuộc tranh luận về quyền riêng tư và cách các thiết bị gia dụng thông minh thu thập, xử lý dữ liệu người dùng.

Thực hư việc robot hút bụi làm lộ hình ảnh riêng tư của người dùng

Robot hình người: Cơ hội hay thách thức?

Cuộc đua phát triển robot hình người đang diễn ra sôi động, với Trung Quốc dẫn đầu, nhằm giải quyết vấn đề suy giảm dân số và tăng năng suất lao động, song cũng đặt ra nhiều thách thức cho thị trường việc làm toàn cầu.

Robot hình người: Cơ hội hay thách thức?

Start-up làm pin từ cát nhận vốn đầu tư 1 triệu USD

Alternō - start-up công nghệ khí hậu vừa gọi vốn 1 triệu USD từ các nhà đầu tư nước ngoài để tiếp tục mở rộng giải pháp lưu trữ năng lượng thông qua pin cát.

Start-up làm pin từ cát nhận vốn đầu tư 1 triệu USD

TP.HCM cùng Bình Dương, Bà Rịa - Vũng Tàu chuẩn bị hạ tầng số, đảm bảo vận hành sau sáp nhập

UBND TP.HCM giao Sở Khoa học và Công nghệ làm việc với tỉnh Bình Dương và Bà Rịa - Vũng Tàu rà soát, chuẩn bị hạ tầng, giải pháp kỹ thuật khi sáp nhập vào TP.HCM.

TP.HCM cùng Bình Dương, Bà Rịa - Vũng Tàu chuẩn bị hạ tầng số, đảm bảo vận hành sau sáp nhập
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar
Đăng ký bằng email
Khi bấm "Đăng ký" đồng thời bạn đã đồng ý với điều khoản của toà soạn Đăng ký
Đăng nhập
Thông tin bạn đọc Thông tin của bạn đọc sẽ được bảo mật an toàn và chỉ sử dụng trong trường hợp toà soạn cần thiết để liên lạc với bạn.
Gửi bình luận
Đóng
Hoàn thành
Đóng

Bình luận (0)
Tối đa: 1500 ký tự
Tất cả bình luận (0)
Ý kiến của bạn sẽ được biên tập trước khi đăng, xin vui lòng viết bằng tiếng Việt có dấu.
Được quan tâm nhất
Mới nhất
Hiện chưa có bình luận nào, hãy là người đâu tiên bình luận về bài viết.
Tối đa: 1500 ký tự
Avatar