Kaggle là một trong những cộng đồng tuyệt vời nhất của các đơn vị khoa học dữ liệu. Cá nhân tôi cũng có thể có một thời gian đòi hỏi và tsi mê gia những cuộc thi trên này. Tôi học tập được từ những người dân chơi làm việc kaggle về những kỹ năng với biện pháp giải pháp xử lý nhiều hơn toàn bộ phần lớn gì tôi học được trước đó. Tuy nhiên, sau đó 1 thời gian, tôi đưa ra quyết định dành ít thời gian bên trên kaggle hơn vậy bởi tsay mê gia sâu vào những cuộc thi như trước.

Bạn đang xem: Kaggle là gì

Có một số nguyên do nhằm tôi đưa ra đưa ra quyết định này.

Tiêu chí đối kháng giản

Các chúng ta hẳn vẫn quen thuộc với hàm mục tiêu vào machine learning. Các cuộc thi trên kaggle cũng chỉ gồm một kim chỉ nam nhất đó là về tối tđọc hóa quý giá của loss function.


*

*

Việc tối tphát âm hàm mục tiêu là đúng, dẫu vậy không đủ. Trong thực tiễn quanh đó quan tâm cho tới tài năng dự đân oán của quy mô, họ còn nên quyên tâm cho tới khả năng thực hiện mô hình kia, tài năng tương thích cùng với khối hệ thống hiện thời, thời gian tính toán thù, năng lực giải thích… Những tiêu chuẩn này hoàn toàn ko được đưa vào tiêu chí của các cuộc thi bên trên kaggle.

Hãy lấy ví dụ về thuật toán thù nhắc nhở giành thành công trong cuộc thi nhưng Netflix tổ chức.

A year inlớn the competition, the Korbell team won the first Progress Prize with an 8.43% improvement. They reported more than 2000 hours of work in order to lớn come up with the final combination of 107 algorithms that gave sầu them this prize.

Well, đó là một thuật toán thù giỏi, cơ mà hãy tưởng tượng bạn sẽ áp dụng thuật tân oán này ra làm sao đến con số rating, user càng ngày càng tăng? Nó vượt phức hợp để mang vào áp dụng.

tập trung cố gắng vào engineering

Điều này còn có một phần lý do bởi vì sự dễ dàng của tiêu chí bên trên. Các công thức thắng lợi cuộc thi trên kaggle từ từ trngơi nghỉ buộc phải khá tiêu cực: Nhiều feature, những model, ensemble bọn chúng lại. Nếu vấn đề này ko giúp cho bạn tăng thiết bị hạng? Sử dụng năng lực tính toán nhằm sử dụng các feature hơn, nhiều Mã Sản Phẩm rộng. Điều này không không giống gì bọn họ cố gắng xây cất một blackbox khổng lồ và cầu ý muốn bọn chúng mang lại tác dụng giỏi.

Hãy mang ví dụ về cuộc thi trang chính credit.

Xem thêm: T/T In Advance Là Gì - Phân Biệt Tt Và Ttr Trong Khai Báo Hải Quan 2021


*

Với cá thể tôi, một người từng làm cho vào nghành nghề ngân hàng — tài thiết yếu, tôi kì vọng có tương đối nhiều kernel mang về insight thú vui về hành vi vay mượn cùng đầu tư chi tiêu của doanh nghiệp vậy do pipeline với hàng loạt feature cùng quy mô nlỗi bên trên.

Với riêng rẽ cuộc thi của trang chủ credit, cá thể tôi thấy rằng roc-auc = 0.8một là tốt nhất có thể với ko có khả năng cao hơn thế nữa. Các phương thức nhỏng tăng thêm feature, thêm mô hình… để kì vọng tăng lên 0.1 điều nữa chỉ với cầu may.

Lý vị là gì? Tôi vẫn debug mô hình và đối chiếu dữ liệu, mang lại một ngưỡng các bạn sẽ cấp thiết rõ ràng được về mặt dữ liệu sự khác biệt của một khoản vay mượn default và non-mặc định. Với những features ngày nay, mô hình cũng không thực sự chắc chắn về dự đoán trong việc phân nhiều loại. Vì vậy, các nỗ lực cần thiết đề nghị triệu tập vào vấn đề thu thập thêm các features mạnh dạn cụ vày tăng cường độ phức hợp của quy mô. Nhà khoa học dữ liệu, lúc đó, đề nghị phụ thuộc vào sự quan trọng đặc biệt của trở thành số đối với chất lượng phân một số loại của quy mô nhằm gợi ý về hồ hết thông báo đề xuất thu thập thêm.

Thuật toán thù trên kaggle không mới

Thực ra phần nhiều thuật toán thù mới sẽ thành lập sinh hoạt mọi bài xích báo công nghệ. Kaggle chỉ nên khu vực vận dụng cùng kiểm chứng xem các thuật toán thù này còn có hữu ích không trong thực tiễn.

Vì vậy, hiện tại tôi chấp thuận cùng với một trong những bí quyết tiếp cận hiệu quả mà lại bản thân biết so với từng bài toán thù còn chỉ coi kaggle là địa điểm tìm hiểu thêm các kinh nghiệm thực hành bổ sung cập nhật. Một số bài bác tân oán cùng thuật toán mà lại tôi cho rằng nên sử dụng:

Đối với bài tân oán phân nhiều loại với input đầu vào là tabular data: tree bagging với tree boosting. Nếu bạn có nhu cầu quy mô có thể diễn giải, hãy chọn tree bagging. Nếu ý muốn unique dự đoán, tree boosting là lựa chọn hợp lí.Bài toán thù hồi quy với input là tabular data: fully connected net hoặc tree boosting đang có tác dụng rất tốt.Bài tân oán dự đoạn chuỗi thời gian: RNN hoàn toàn có thể cách xử lý được sự việc.Đối cùng với bài toán thù phân nhiều loại vnạp năng lượng bản, hình ảnh: transfer learning sẽ đem về hiệu quả tốt nhất.

Thắng một cuộc thi bên trên kaggle không giúp ích các mang lại công việc của tôi


*

Source: From the paper “Hidden Technical Debt in Machine Learning System” by D. Sculley et al

Nhỏng chúng ta thấy sinh sống hình bên trên, hành trình dài của dữ liệu tự Lúc xuất hiện cho tới lúc đạt được một insight hữu ích đề nghị tương đối nhiều quy trình và công sức. khi đã chiếm lĩnh một bộ dữ liệu sạch đẹp thì vấn đề training mô hình để sở hữu được dự đoán đầy đủ giỏi lúc đầu (theo cá thể tôi) là không quá cạnh tranh. Việc thắng một cuộc thi trên kaggle chỉ chứng minh rằng tôi xử lý được một phần vô cùng nhỏ tuổi vào quá trình bên trên. Vì vậy nó không giúp ích rất nhiều mang đến công việc của tôi.

Hãy dành thời gian mang lại phần nhiều trang bị đặc trưng khác


*

Người làm cho về tài liệu xung quanh hiểu biết về phép tắc, ngữ điệu lập trình giỏi thuật toán thù machine learning còn đề xuất xuất sắc không hề ít tài năng mềm khác như gọi biết về ngành, kĩ năng tiếp xúc, tài năng diễn đạt, kĩ năng đặt câu hỏi, kĩ năng so với vấn đề…

Vì vậy, hãy chắc chắn rằng rằng chúng ta dành riêng thời hạn để nâng cao toàn bộ những kỹ năng cần thiết thay bởi quá tập trung vào luật, ngôn ngữ hay thuật tân oán.

Sau tất cả

Kaggle vẫn rất tuyệt!

Những gì tôi học được về data science trường đoản cú kaggle là tương đối nhiều. Tuy nhiên những cuộc thi bên trên kaggle chỉ phản ánh 1 phần khôn cùng bé dại phần nhiều gì trong thực tế công việc của những fan có tác dụng về dữ liệu. Vì vậy, hãy dành riêng thời gian và sự quan tâm phù hợp bên trên kaggle để có thời gian triển khai xong xuất sắc tất cả kĩ năng của chính bản thân mình.