Bạn đã miễn phí giúp Google huấn luyện trí tuệ nhân tạo trong 15 năm, chỉ là luôn bị che giấu

robot
Đang tạo bản tóm tắt

Tiêu đề gốc: You’ve been training Google’s AI for 15 years. You had no idea.

Tác giả: Sharbel

Nguồn:

Chuyển thể: Mars Finance

Hàng ngày, khoảng 500.000 giờ lao động của con người bị Google miễn phí tận dụng. Và những người đóng góp chỉ đơn giản là muốn đăng nhập vào ngân hàng trực tuyến.

reCAPTCHA là hệ thống vận hành dữ liệu ngầm thành công nhất trong lịch sử internet. Trong thời kỳ đỉnh cao, mỗi ngày có 200 triệu người hoàn thành xác thực. Nhưng hầu như không ai nhận thức được ý nghĩa đằng sau mỗi lần nhấp đó là gì.

Công ty xe tự lái của Google, Waymo, hiện có giá trị 45 tỷ USD. Và phần lớn dữ liệu huấn luyện cốt lõi của họ đều do bạn cung cấp miễn phí khi truy cập các trang web.

Dưới đây là câu chuyện đầy đủ:

Khởi nguồn: Một ý tưởng thông minh

Năm 2000, các bot gửi thư rác đang phá hủy internet. Các diễn đàn bị spam, hộp thư đến đầy ắp, các trang web cần một phương pháp phân biệt người và máy.

Giáo sư Luis von Ahn của Đại học Carnegie Mellon đã giải quyết vấn đề này. Ông phát minh ra CAPTCHA: một đoạn văn bản bị bóp méo chỉ con người mới đọc hiểu được, robot thì không thể vượt qua.

Nhưng von Ahn không chỉ dừng lại ở đó. Hàng triệu người đã tiêu tốn thời gian vào những thử thách này. Vậy nếu có thể dùng thời gian đó để làm hai việc cùng lúc?

Năm 2007, ông ra mắt reCAPTCHA. Điểm tinh tế của nó là: không còn hiển thị các ký tự ngẫu nhiên nữa, mà là hai từ. Một từ đã được hệ thống biết rõ, từ còn lại là sách quét thực mà máy tính vẫn chưa thể nhận diện. Và câu trả lời của bạn giúp số hóa những cuốn sách này.

Những cuốn sách này đến từ kho lưu trữ của The New York Times và Google Books, lên tới 130 triệu cuốn.

Bạn nghĩ mình chỉ đăng nhập vào một trang web bình thường, nhưng thực ra bạn đang góp phần vào việc số hóa thư viện số lớn nhất thế giới qua OCR (nhận dạng ký tự quang học).

Năm 2009, Google chính thức mua lại reCAPTCHA.

Sau đó, Google thay đổi cách chơi

Thời kỳ “chữ bị bóp méo” kết thúc vào khoảng năm 2012.

Google lại gặp một thử thách mới: Street View chụp tất cả các con đường trên toàn cầu, nhưng các bức ảnh chỉ là dữ liệu thô. Để AI phát huy tác dụng, nó cần hiểu rõ những gì thấy được: biển báo, vạch kẻ đường, đèn giao thông, mặt tiền cửa hàng.

Vì vậy, Google thiết kế lại reCAPTCHA v2. Thay vì chữ bị bóp méo, là các lưới ảnh. “Nhấp vào tất cả các ô có đèn giao thông.” “Chọn tất cả các vạch kẻ đường.” “Nhận diện cửa hàng.”

Những hình ảnh này lấy trực tiếp từ Street View của Google. Lần nhấp của bạn chính là nhãn dữ liệu.

Mỗi lần chọn đều gửi tín hiệu cho mô hình thị giác máy tính của Google: cụ thể, cụm pixel này là đèn giao thông, hình dạng kia là vạch kẻ đường. Bạn không chỉ đang làm bài kiểm tra, mà còn đang xây dựng bộ dữ liệu.

Quy mô vượt xa mong đợi

Trong thời kỳ đỉnh cao, mỗi ngày có 200 triệu reCAPTCHA được giải mã. Mỗi thử thách mất khoảng 10 giây, tức là tổng cộng 2 tỷ giây lao động của con người mỗi ngày. Tương đương 50.000 giờ mỗi ngày.

Chi phí cho việc gán nhãn dữ liệu có trả phí khoảng 10 đến 50 USD mỗi giờ. Theo tiêu chuẩn thấp nhất, giá trị lao động miễn phí hàng ngày lên tới 50 triệu USD.

Hơn nữa, reCAPTCHA không chỉ xuất hiện trong một ứng dụng nào đó. Nó có mặt ở mọi ngân hàng, cổng chính phủ, trang thương mại điện tử. Bạn không còn lựa chọn nào khác: muốn đăng nhập tài khoản? Phải nhấn nhãn dữ liệu trước. Google chưa từng hỏi ý kiến bạn, chưa trả một xu lương nào, thậm chí chưa từng nói cho bạn biết về điều này.

Tất cả những điều này đã tạo ra gì?

Những dữ liệu này trực tiếp cung cấp cho hai sản phẩm:

  • Google Maps: công cụ dẫn đường phổ biến nhất toàn cầu. Khả năng nhận diện biển báo, cửa hàng, địa lý thành phố phần lớn nhờ vào hàng tỷ lần người dùng nhấn nhãn khi đăng nhập.

  • Waymo: dự án xe tự lái của Google. Để lái xe an toàn, xe tự hành cần nhận diện gần như hoàn hảo hàng nghìn kiểu mẫu hình ảnh.

Dữ liệu huấn luyện giá trị thực của những công việc nhận diện này chính là do hàng triệu người vô thức nhấn nhãn qua reCAPTCHA. Waymo đã hoàn thành hơn 4 triệu chuyến đi trả phí vào năm 2024, định giá 45 tỷ USD. Và nền tảng của nó chính là những “người dân internet” vô danh chỉ muốn kiểm tra email.

Tại sao không ai sao chép được mô hình này?

Dữ liệu nhãn rất đắt đỏ. Các công ty như Scale AI, Appen, Labelbox tồn tại để giải quyết vấn đề này, thuê hàng trăm nghìn công nhân, có khi lương chưa tới 1 USD/giờ.

Giải pháp của Google là đi một con đường khác: họ biến việc nhãn thành bắt buộc. Không cần trả phí, không cần xin phép, mà như một “vé vào cửa” để tiếp cận mọi ngóc ngách của internet. Kết quả là: hàng tỷ hình ảnh có nhãn, phủ sóng toàn cầu, hoạt động 24/7, trong mọi thời tiết, ở mọi thành phố. Không công ty nhãn dữ liệu nào có thể làm được điều này. Internet chính là nhà máy, mỗi người dùng là nhân viên không ký hợp đồng.

Bạn vẫn đang tham gia

Năm 2018, reCAPTCHA v3 ra đời, thậm chí không còn hiển thị thử thách nữa. Nó quan sát cách bạn di chuột, tốc độ cuộn, thời gian dừng lại. Dấu vân tay hành vi của bạn sẽ cho biết bạn có phải là con người hay không. Những dữ liệu này cũng sẽ được phản hồi vào hệ thống AI của Google.

Bạn chưa từng chủ động chọn tham gia, không có ô checkbox nào để bạn tick. Nhưng hiện tại, trên hầu hết các trang web bạn truy cập, bạn vẫn đang làm như vậy.

Sự mỉa mai đáng sợ

Ý tưởng của Luis von Ahn rất xuất sắc: biến năng lượng con người vốn đã bị lãng phí thành sản phẩm hữu ích. Nhưng Google lại khai thác ý tưởng này theo cách khác. Họ lợi dụng cơ chế bảo mật mà người dùng buộc phải dùng, triển khai rộng khắp mạng lưới, thu hoạch dữ liệu để xây dựng các sản phẩm thương mại trị giá hàng trăm tỷ USD. Người dùng không nhận được gì, thậm chí không hay biết.

Điều cay đắng nhất là: bạn đã dành nhiều năm để chứng minh mình là con người, hoàn thành các công việc nhận dạng hình ảnh mà AI còn chưa thể làm được. Và khi AI học được những kỹ năng này, thì việc nhãn dữ liệu của con người trở nên thừa thãi.

Bạn đã chứng minh mình là con người, nhưng kết quả lại khiến chính bạn trở thành người có thể bị thay thế.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim