Trong những bài tân oán phân loại, confusion matrix là một bảng đặc biệt được cần sử dụng để minh họa hiệu quả của các thuật toán thù. Bài viết này sẽ cố gắng hiểu hơn về confusion matrix.
Bạn đang xem: Confusion matrix là gì
infobandarpkr.com ưu tiên giữ lại thuật ngữ trong tiếng Anh để bạn đọc dễ dàng kiếm tìm kiếm tài liệu tmê say khảo nhưng không dịch ra tiếng Việt.
Confusion matrix (CM) là gì?
Để dễ dàng vào việc hiểu hơn về CM, bọn họ hãy lưu ý một ví dụ đơn giản. Giả sử ta cần dự đoán thù kết quả xét nghiệm của 1005 bệnh nhân xem họ gồm bị ung thư hay không. Dưới đây là những gì mô hình của bọn họ dự đoán:
90 bệnh nhân bị ung thư với tất cả dự đân oán này của họ đều đúng.915 bệnh nhân ko bị ung thư nhưng thật ra tất cả tới 910 người lại bị vào thực tế.Để dễ dàng minc họa các kết quả ở bên trên, chúng ta sử dụng confusion matrix như dưới đây (Câu hỏi: Bệnh nhân này còn có bị bệnh ung thư không?):
Thực tế (có) | Thực tế (không) | |
Dự đoán (có) | 90 (True Positive) | 0 (False Positive) |
Dự đoán (không) | 910 (False Negative) | 5 (True Negative) |
Có lẽ nó mang tên gọi là “confusion matrix” vì Khi đọc ban bố và hiểu thông tin cơ mà nó truyền tải, bọn họ gồm hơi bối rối (confused) một chut, tôi đùa đấy!
Trong bảng bên trên, có 4 thuật ngữ ta cần để ý đến:
True Positive (TP): những bệnh nhân ta đân oán là có bệnh đúng là đang mang bệnh.True Negative (TN): những bệnh nhân ta đoán thù là không gồm bệnh đúng là đang khỏe mạnh.False Positive (FP): những bệnh nhân ta đoán là có bệnh thật ra đang khỏe mạnh.False Negative (FN): những bệnh nhân ta đoán là không có bệnh thật ra đang sở hữu bệnh.FP. với FN đôi khi còn được gọi dưới những cái thương hiệu khác trong thống kê là Sai lầm loại I (Type I error) cùng Sai lầm loại II (Type II error).
Bên dưới là một hình minh họa vui mang đến chúng ta thêm một ví dụ nữa của CM trong việc dự đân oán có tnhị xuất xắc không (nguồn).

Giải ưa thích hình ví dụ vui ở trên
True Postive: Rõ ràng trong hình là một phụ nữ bao gồm tnhì vá chưng sĩ nói mang lại cô ấy biết là cô ấy đang bao gồm thai. Điều này chứng tỏ dự đân oán của chưng sĩ là đúng đắn so với thực tế. Nói phương pháp khác: dự đoán thù “có” của bác sĩ (Positive) là “đúng” (True).False Negative: Bác sĩ dự đoán chị cơ không có tnhì nhưng thực tế lại gồm. Đây là một ví dụ của Sai lầm loại II. Nói bí quyết khác: dự đân oán “không” của bác sĩ (Negative) là “sai” (False).False Positive: Đàn ông ko thể bao gồm tnhì được trong lúc bác sĩ lại bảo anh ta có. Đây là Sai lầm loại I. Nói biện pháp khác: dự đân oán “có” của chưng sĩ (Positive) là “sai” (False).True Negative: Bác sĩ bảo anh tê không có tnhị, điều này hiển nhiên đúng. Nói giải pháp khác: dự đoán “không” của bác sĩ (False) là “đúng” (True).
Xem thêm: Tổng Quan & Đổi Đơn Vị Kgf/Cm2 Là Gì ? 1 Kgf Bằng Bao Nhiêu Kg?
Cách nhớ confusion matrix
Trong bảng trên, thời gian thì True, lúc thì False, cơ hội thì Positive, thời gian thì Negative. Vậy làm sao chúng ta gồm thể nhớ được đúng chuẩn cái làm sao là mẫu làm sao cùng ở vị trí nào vào ma trân trên? Dưới đây là một mánh nhỏ để nhớ dựa vào tên gọi của các thuật ngữ.
True/False ý chỉ những gì bọn họ dự đân oán đã đúng hay chưa (true or false).Positive/Negative sầu ý chỉ những gì chúng ta dự đân oán (có hoặc không).Nói khác đi, nếu chúng ta thấy chữ “True”, điều đó nghĩa là tất cả những gì bọn họ dự đoán thù đều đúng hết cả. Nếu chúng ta dự đân oán 90 bệnh nhân bao gồm bệnh (TP) thì đúng là vào thực tế 90 bệnh nhân đó đang với bệnh. Còn nếu họ dự đoán thù có 5 bệnh nhân ko mang bệnh (TN) thì trong thực tế đúng là họ đang rất khỏe mạnh.
Ngược lại, nếu ta thấy chữ “False” bao gồm nghĩa là những gì họ dự đân oán trật hết. Những bệnh nhân ta đoán thù là có bệnh thì lại ko vào thực tế và ngược lại.
Precision / Recall
Với CM, họ sẽ tính được hai đại lượng quan liêu trọng là Precision với Recall.
Precision: đây là tỷ lệ giữa những người thật sự gồm bệnh so với tất cả các ca được dự đoán là tất cả bệnh. Nói phương pháp khác, có từng nào dự đoán “positive” là thật sự “true” trong thực tế?
$$eginalignmathrm precision = dfracmathrmTPmathrmTP + mathrmFP = dfrac9090+0 = 100\%.endalign$$
Rõ ràng, ta chỉ dự đân oán 90 người có bệnh cùng vào thực tế những người này đúng là đang bị bệnh thât. Vậy ra, 100% số người ta dự đoán thù gồm bệnh là chính xác!
Recall (đôi khi còn được gọi là Sensitivity): vào những người thực sự có bệnh, bao nhiêu vào số họ được dự đoán thù đúng bởi quy mô của bọn chúng ta? Nói phương pháp không giống, tất cả từng nào dự đoán thù “positive” đúng là do mô hình của bọn họ đưa ra?
$$eginalignmathrm recall = dfracmathrmTPmathrmTP + mathrmFN = dfrac9090+910 = 9\%.endalign$$
Rõ ràng, ta chỉ dự đoán 90 người có bệnh trong những lúc gồm tới 1000 người trong thực tế mắc bệnh. Vậy ra, quy mô của bọn họ chỉ tất cả thể dự đoán được 9% số lượng người có bệnh trong thực tế.
Bên dưới là confusion matrix sau khi đã cấp dưỡng precision với ređiện thoại tư vấn.
Thực tế (có) | Thực tế (không) | ||
Dự đoán (có) | 90 | 0 | Precision = 100% |
Dự đoán (không) | 910 | 5 | |
Recall = 9% |
Chúng ta tất cả thể hiểu gì về Precision cùng Recall? Nếu một trong nhì mẫu này có giá trị cao còn loại kia có giá trị thấp (hoặc ngược lại) thì sao? Ý nghĩa của chúng như thế nào?
Precision cao / Ređiện thoại tư vấn thấp
Nhìn lại ví dụ ở bảng trên, nếu chúng ta chỉ dựa vào Precision, mô hình của bọn họ thật sự rất tốt (Precision = 100%). Tất cả các ca tất cả bệnh nhưng mà chúng ta dự đoán đều chính xác.
Tuy nhiên ngó lại Recall (9%), gồm tới 910 bệnh nhân bị dự đân oán sai và họ ko được điều trị. 91% số ca bị nhiễm bệnh sẽ cầm chắc cái chết. Mô hình của chúng ta trọn vẹn rất tệ vào trường hợp này!
Precision thấp / ReCall cao
Nếu ngược lại thì sao? Giả sử confusion matrix là bảng dưới đây (câu hỏi: Bệnh nhân tất cả mắc ung thư không?).
Thực tế (có) | Thực tế (không) | ||
Dự đoán (có) | 90 | 910 | Precision = 9% |
Dự đoán (không) | 10 | 5 | |
Recall = 90% |
Trong trường hợp này Precision rất nhỏ nếu đem so với Ređiện thoại tư vấn (9% so với 90%). Chúng ta đã dự đoán thù không nên thừa nhiều người lành thành người bệnh. Tuy nhiên gồm vẻ như dự đoán thù sai này “không nhiều tác hại” hơn là trường hợp trước đó. 90% trường hợp này còn có thể “bị” hóa trị nhầm nhưng ít ra là gồm thể họ vẫn sống, trong lúc ở trường hợp precision cao/reHotline thấp, số lượng người không được điều trị tương đối cao với cầm chắc mẫu chết sớm!
Tại sao cả Precision với Recall đều quan lại trọng?
Precision đến chúng ta biết những “dự đoán có” của họ chính xác từng nào (Liệu vào 1000 người ta dự đoán thù mắc bệnh thì tất cả mấy người thật sự bị?). Tuy nhiên sẽ tất cả một câu hỏi nảy ra vào đầu họ là “Liệu bọn họ bao gồm dự đân oán thiếu kết quả làm sao không?” (Ta tất cả bỏ sót bệnh nhân nào đang mắc bệnh nhưng ko dự đoán không?). Recall sẽ cung cấp câu trả lời mang đến câu hỏi này!
Nếu bạn muốn sửa đổi thuật toán để tăng một trong nhị precison và ređiện thoại tư vấn, cái còn lại sẽ bị giảm đi.
Một ví dụ không giống. Bạn muốn xây dựng một hệ thống gợi ý sản phẩm trực tuyến. Dự đoán “Positive” trong trường hợp này chính là “Những sản phẩm thật sự thu cháy khách hàng“. Mô hình của bạn sẽ hiển thị những sản phẩm liên quan đến sản phẩm mà lại họ đang xem để họ bao gồm thể cài thêm nhiều sản phẩm khác bên trên trang web bán sản phẩm của bạn (Amazon, Tiki, Lazadomain authority,… chẳng hạn).
Nếu precision vượt cao trong lúc rehotline lại thấp, những gợi ý của bạn đúng là đắm đuối được người tiêu dùng nhưng bạn lại bỏ qua quá nhiều sản phẩm tiềm năng khác cũng bao gồm khả năng say mê họ không hề kém.Ngược lại, nếu precision thấp trong khi reĐiện thoại tư vấn cao thì bạn sẽ chắc chắn tất cả các sản phẩm tiềm năng sẽ được giới thiệu đến quý khách. Tuy nhiên, những sản phẩm thừa mứa với vô vị khác cũng sẽ chen chân vào đây cùng khiến cho khách hàng của bạn không mấy mặn mà lại, họ có thể đổi quý phái trang không giống để mua!