“Dự đoán” có thể là từ đầu tiên được nhắc đến khi nói về machine learning. Các model machine learning về bản chất là những chiếc hộp nhận vào những quan sát và đưa ra những dự đoán.

Bạn đang xem: Argmax là gì

*

Cách nhìn này được đón nhận trong một thời gian dài bởi sự phổ biến của supervised learning (hay nói chính xác hơn là empirical risk minimization). Ở đây mình từ “supervised learning” không chỉ để nói về việc học từ dữ liệu có dán nhãn (nhằm phân biệt với unsupervised learning), mà để chỉ cả một framework thường được sử dụng để huấn luyện với dữ liệu có dán nhãn.

Hầu hết các thuật toán supervised learning hoạt động dựa vào một giả định (assumption) quan trọng: giả định phân phối đồng nhất độc lập (independently identically distributed, tạm gọi tắt là giả định iid). Giả định iid cho rằng:

Các điểm dữ liệu được lấy mẫu từ cùng một phân bố xác suất (identical). Các điểm dữ liệu lấy mẫu một cách độc lập với nhau: tức là việc xuất hiện của một điểm dữ liệu B không ảnh hưởng đến xác suất xuất hiện của điểm dữ liệu A. Nói cách khác, \(P(A) = P(A \mid B)\) hoặc \(P(A, B) = P(A)P(B)\) (independent).

Phần lớn các model supervised learning được huấn luyện dựa trên quy tắc maximum likelihood, một trường hợp đặc biệt của empirical risk minimization. Gọi \(M_{\theta}\) là model với tham số \(\theta\) và \(D = (d_1, d_2, ..., d_N)\) là một tập dữ liệu gồm \(N\) điểm dữ liệu. \(M_{\theta}(D)\) là xác suất mà model cho rằng tập dữ liệu sẽ xuất hiện trong thực tế, còn gọi là likelihood của tập dữ liệu. Quy tắc maximum likelihood nói rằng bạn cần tìm model cho sao cho \(M_{\theta}(D)\) là cực đại. \begin{equation} \max_{\theta} M_{\theta}(D)\end{equation}

Một ví dụ cách dân dã để minh họa về maximum likelihood: bạn muốn tuyển chuyên gia về thơ Nguyễn Trãi, bạn đưa cho các ứng cử viên một loạt các bài thơ của Nguyễn Trãi để thử xem họ có nhận ra hay không. Dĩ nhiên một ứng cử viên hoàn hảo sẽ tự tin tuyệt đối cho rằng mọi bài thơ được đưa cho anh ta đều là của Nguyễn Trãi. Tuy nhiên, trường hợp đó hiếm khi xảy ra: các ứng cử viên đều có một độ lưỡng lự nhất định. Nguyên tắc maximum likelihood khuyên bạn nên chọn ứng cử viên nào tự tin nhất về việc các bài thơ là của Nguyễn Trãi.

Vì sao giả định iid quan trọng đối với supervised learning? Giả định iid giúp ta tính được giá trị của \(M_{\theta}(D)\). Cụ thể hơn, nó cho phép bạn phân tách likelihood của tập dữ liệu thành tích của các likelihood của từng điểm dữ liệu

\begin{equation}M_{\theta}(D) = \prod_{i = 1}^N M_{\theta}(d_i) = M_{\theta}(d_1) \times M_{\theta}(d_2) \times \ldots M_{\theta}(d_N)\end{equation}

(Giả định independent cho phép \(M_{\theta}(D) = \prod_{i = 1}^N M^{(i)}_{\theta}(d_i)\), và giả định identical nói rằng \(M^{(1)} = M^{(2)} ... = M^{(N)} = M\))

Mục tiêu của supervised learning trở thành

\begin{equation}\max_{\theta} \prod_{i = 1}^N M_{\theta}(d_i) \end{equation}

Ta có thể tính được hàm mục tiêu bằng cách nhân các \(M_{\theta}(d_i)\) với nhau, nhưng sai số sẽ rất lớn khi có nhiều điểm dữ liệu vì ta đang nhân rất nhiều số nhỏ hơn 1 lại với nhau (mỗi \(M_{\theta}(D)\) là một xác suất trong khoảng <0,1>). Ta sử dụng một thủ thuật toán học để hỗ trợ cho việc tính toán. Ký hiệu \(\arg\max_x f(x)\) thể hiện giá trị của biến \(x\) sao cho \(f(x)\) đạt cực đại, tức là \(f(\arg\max_x f(x)) = \max_x f(x)\). Ta có nhận xét rằng \(\arg\max_x f(x) = \arg\max_x - \log f(x)\) bởi vì -log là một hàm đơn điệu giảm và \(f(x)\) không âm.

Từ nhận xét trên, ta chuyển mục tiêu từ maximum likelihood trở thành maximum negative log-likelihood (bạn có thể thấy một trong hai cụm từ này được sử dụng trong một paper về machine learning. Đa số trường hợp, chúng có ý nghĩa tương tự nhau).Mục tiêu của supervised learning trở thành:

\begin{equation}\max_{\theta} - \log \prod_{i = 1}^N M_{\theta}(d_i)\end{equation}

Do log của một tích bằng tổng của log cho nên:

\begin{equation}\max_{\theta} - \log \prod_{i = 1}^N M_{\theta}(d_i) = \max_{\theta} \sum - \log M_{\theta}(d_i)\end{equation}

Lúc này, có thể bạn đã hiểu vì sao người lại chọn hàm log trong thủ thuật này. Sau khi phân tách, bạn tính \(-\log M_{\theta}(d_i)\) cho mỗi điểm dữ liệu và cộng chúng lại để tính được hàm mục tiêu.

Xem thêm: Xcode Là Gì ?? Cách Sửa Lỗi Crash Ứng Dụng Macos Xcode Là Gì

Tóm lại, giả định iid giúp cho ta có thể tính được hàm mục tiêu của supervised learning một cách dễ dàng bằng cách phân tách likelihood của tập dữ liệu thành tích của các likelihood của từng điểm dữ liệu. Cũng giống như mọi giả định toán học khác, giả định iid giúp đơn giản hóa bài toán và giúp ta huấn luyện được những model có độ chính xác nhất định. Trong thực tế, các model được huấn luyện bởi supervised learning đang chiếm lĩnh thị phần bởi độ đơn giản và hiệu quả.

Tuy nhiên, giả định iid cũng là điểm yếu của supervised learning. Giả định này rất không thực tế: nó cho rằng các điểm dữ liệu không hề có sự liên kết gì với nhau. Trong cuộc sống, ngược lại, mọi thứ bạn thấy ngày hôm nay đều là kết quả của những việc bạn làm hôm qua. Ví dụ hôm qua bạn quyết định đi du lịch, hôm nay bạn có thể thức giấc ở resort nào đó. Nhưng nếu bạn bận việc không đi nữa, bạn sẽ thức giấc ở nhà mình. Dân gian gọi là nhân và quả.

Giả định iid xem mỗi lần model đưa ra một dự đoán là một lần quyết định độc lập. Lần trước không ảnh hưởng gì đến lần sau. Điều này làm cho mọi người nghĩ đến những model machine learning như những chiếc hộp biệt lập và quên đi ảnh hưởng của những dự đoán của chúng lên thế giới bên ngoài.

Để mô hình hóa thế giới một cách thực tế hơn, ta thử đặt câu hỏi: Những dự đoán sẽ có ảnh hưởng lên những gì và như thế nào? Hãy thử vẽ một mũi tên xuất phát từ những dự đoán và tự hỏi điểm đích của mũi tên đó là đâu. Câu trả lời sẽ có trong phần tiếp theo.

*