Khoa học dữ liệu

TỔNG QUAN VỀ STATISTICS: KHÁI NIỆM VÀ ỨNG DỤNG CỦA THỐNG KÊ

Statistics hay thống kê chắc có lẽ không còn xa lạ đối với những ai đang học, nghiên cứu, đang hoạt động, làm việc ở các ngành nghề, lĩnh vực có liên quan đến dữ liệu ví dụ Data analytics, Data science. Statistics được nhiều chuyên gia cho rằng là kiến thức nền tảng, cơ sở để chúng ta có thể bắt đầu tìm hiểu được, học được, trích xuất được những thông tin hữu ích, có giá trị từ bộ dữ liệu.

TỔNG QUAN VỀ STATISTICS: KHÁI NIỆM VÀ ỨNG DỤNG CỦA THỐNG KÊ

Xem tiếp...

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.2): CART (GINI INDEX)

Trở lại với chủ đề bài viết về thuật toán cây quyết định, ở bài viết trước đã giới thiệu đến các bạn tổng quan thế nào là Decision Tree, các công thức quan trọng để xác định cách phân nhánh tối ưu hay nói cách khác là đem lại kết quả phân loại (classification) chính xác dựa trên các thuộc tính dữ liệu và đặc biệt là thuật toán CART (classification and regression tree) sử dụng công thức “Goodness of Split”.

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.2): CART (GINI INDEX)

Xem tiếp...

TỔNG QUAN VỀ PREDICTIVE ANALYTICS (PHÂN TÍCH DỰ BÁO) (PHẦN 2)

Trở lại với chủ đề bài viết về phân tích dự báo – Predictive analytics, ở phần 1, đã giới thiệu đến các bạn thế nào là phân tích dự báo, phân biệt nó với Data analytics, Descriptive analytics (phân tích mô tả) và Prescriptive analytics (phân tích đề xuất), còn phần 2 lần này chúng tôi sẽ đi vào trình bày một cách tổng quan về bản chất, cách thức vận hành, quy trình, và các thuật toán hay kỹ thuật phân tích được sử dụng trong Predictive analytics.

TỔNG QUAN VỀ PREDICTIVE ANALYTICS (PHÂN TÍCH DỰ BÁO) (PHẦN 2)

Xem tiếp...

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.1) : CLASSIFICATION & REGRESSION TREE (CART)

Ở 2 bài viết trước đã giới thiệu đến các bạn thuật toán Classification đầu tiên là KNN (K – nearest neighbor) và một số phương pháp đánh giá mô hình phân loại như Hold out, Cross validation, hay Confusion matrix, Lift, Gain chart, ROC/ AUC. Trở lại với chủ đề về những thuật toán phân loại trong Data mining, lần này chúng tôi và các bạn sẽ tìm hiểu về Decision Tree, thuật toán có thể nói là “nổi tiếng”, “phổ biến” mà bất kỳ ai hoạt động và làm việc trong lĩnh vực khoa học dữ liệu, hoặc phân tích dữ liệu đều phải biết đến.

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.1) : CLASSIFICATION & REGRESSION TREE (CART)

Xem tiếp...

TỔNG QUAN VỀ PREDICTIVE ANALYTICS (PHÂN TÍCH DỰ BÁO) (PHẦN 1)

Phân tích dự báo hay còn gọi Predictive analytics là một trong những phương pháp, kỹ thuật phân tích dữ liệu phổ biến và quan trọng nhất ngày nay. Đây là công cụ hữu ích để những nhà khoa học, chuyên gia hoạt động ở lĩnh vực Data science có cái nhìn chi tiết về đối tượng nghiên cứu, khám phá các mối liên hệ, đưa ra những phán đoán về đối tượng nghiên cứu ở tương lai chứ không chỉ dừng lại tại quá trình mô tả.

TỔNG QUAN VỀ PREDICTIVE ANALYTICS (PHÂN TÍCH DỰ BÁO) (PHẦN 1)

Xem tiếp...

PHƯƠNG PHÁP ĐÁNH GIÁ MÔ HÌNH PHÂN LOẠI (CLASSIFICATION MODEL EVALUTATION)

Ở bài viết trước, đã giới thiệu đến các bạn thuật toán đầu tiên của mô hình Classification – mô hình phân loại – là thuật toán K nearest neighbor (KNN) với công thức cơ bản, và ví dụ đơn giản về ứng dụng của KNN trong ngành ngân hàng để hiểu hơn cách vận hành thuật toán.

PHƯƠNG PHÁP ĐÁNH GIÁ MÔ HÌNH PHÂN LOẠI (CLASSIFICATION MODEL EVALUTATION)

Xem tiếp...

TỔNG QUAN VỀ CUSTOMER DATA (P.3) GIẢI PHÁP KHAI THÁC CUSTOMER DATA HIỆU QUẢ

Quay trở lại với chủ đề về dữ liệu khách hàng, ở bài viết phần 1 và phần 2, đã giới thiệu đến các bạn những khái niệm về phân tích dữ liệu khách hàng, loại dữ liệu khách hàng có thể thu thập, và lợi ích, cũng như mục đích của quá trình Customer data analytics. Trong phần 3 lần này, chúng tôi sẽ cung cấp những giải pháp hỗ trợ các công ty khai thác nguồn dữ liệu khách hàng của họ sao cho hiệu quả nhất.

TỔNG QUAN VỀ CUSTOMER DATA (P.3) GIẢI PHÁP KHAI THÁC CUSTOMER DATA HIỆU QUẢ

Xem tiếp...

THUẬT TOÁN KNN VÀ VÍ DỤ ĐƠN GIẢN TRONG NGÀNH NGÂN HÀNG

Giới thiệu về K – nearest neighbor (KNN)

Ở các bài viết trước đã giới thiệu đến các bạn một cách tổng quan những chủ đề về Data mining (Khai phá dữ liệu), Predictive analytics (Phân tích dự báo), Statistics (Thống kê) bao gồm các khái niệm quan trọng, kỹ thuật phân tích và ứng dụng, lợi ích trong các lĩnh vực khác nhau.

THUẬT TOÁN KNN VÀ VÍ DỤ ĐƠN GIẢN TRONG NGÀNH NGÂN HÀNG

Xem tiếp...

TỔNG QUAN VỀ CUSTOMER DATA (P.2) LỢI ÍCH CỦA DỮ LIỆU KHÁCH HÀNG

Để thành công và phát triển, một công ty cần phải có khả năng đạt được, giữ chân, thỏa mãn và thu hút càng nhiều khách hàng càng tốt. Hiểu rõ hơn về khách hàng thông qua phân tích dữ liệu khách hàng vừa là công việc, nhiệm vụ rất quan trọng vừa là cơ sở để đánh giá công ty hoạt động hiệu quả như thế nào.

TỔNG QUAN VỀ CUSTOMER DATA (P.2) LỢI ÍCH CỦA DỮ LIỆU KHÁCH HÀNG

Xem tiếp...

TỔNG QUAN VỀ STATISTICS: INFERENTIAL STATISTICS (THỐNG KÊ SUY LUẬN)

Ở các phần trước trong chủ đề về Statistics (thống kê) đã giới thiệu đến các bạn các khái niệm, lợi ích, ứng dụng của thống kê, đặc biệt Descriptive statistics (thống kê mô tả), một trong 2 dạng cơ bản của Statistics. Trở lại với bài viết lần này chúng tôi sẽ trình bày tóm tắt về dạng còn lại, chính là một số kiến thức của Inferential Statistics hay còn gọi là thống kê suy luận.

TỔNG QUAN VỀ STATISTICS: INFERENTIAL STATISTICS (THỐNG KÊ SUY LUẬN)

Xem tiếp...

TỔNG QUAN VỀ CUSTOMER DATA (P.1) – DỮ LIỆU KHÁCH HÀNG LÀ GÌ?

Dữ liệu khách hàng hay Customer data được coi là tài sản, nguồn thông tin vô giá đối với mọi công ty thuộc nhiều lĩnh vực kinh doanh khác nhau. Việc triển khai các quy trình khai thác, dự án nghiên cứu, phân tích Customer data với mục đích tìm hiểu, nắm bắt mong muốn, nhu cầu thầm kín của khách hàng, và chuyển nó thành những giá trị cụ thể thông qua từng chiến lược, kế hoạch hoạt động chính là chìa khóa cạnh tranh của mỗi tổ chức ngày nay.

TỔNG QUAN VỀ CUSTOMER DATA (P.1) – DỮ LIỆU KHÁCH HÀNG LÀ GÌ?

Xem tiếp...

TỔNG QUAN VỀ DATA VISUALIZATION (TRỰC QUAN HÓA DỮ LIỆU)

Data visualization tạm được dịch là trực quan hóa dữ liệu, đây là phương pháp không chỉ là bước quan trọng của bất kỳ quy trình phân tích, hay khai phá dữ liệu mà nó còn là công cụ được sử dụng phổ biến và rộng rãi ở mọi tổ chức thuộc mọi lĩnh vực, hay bởi mỗi một ai trong chúng ta, với mục đích đơn giản là truyền đạt, trình bày một cách hiệu quả, đơn giản, thu hút những thông tin, dữ liệu đến người đọc, người xem.

TỔNG QUAN VỀ DATA VISUALIZATION (TRỰC QUAN HÓA DỮ LIỆU)

Xem tiếp...

GIẢI PHÁP CẢI THIỆN BẢO MẬT DỮ LIỆU – DATA SECURITY

Trở lại với chủ đề Data security, bảo mật dữ liệu, ở phần 1 bài viết trước chúng ta đã cùng nhau tìm hiểu về thực trạng Data security trên toàn cầu thông qua bàn luận những số liệu từ các báo cáo, nghiên cứu của Verizon và IBM về Data breach (xâm phạm, đánh cắp, rò rỉ dữ liệu) tại những công ty, tổ chức đến từ nhiều quốc gia khác nhau; cũng như tìm hiểu tổng quan về Data security như khái niệm, lợi ích, thách thức.

GIẢI PHÁP CẢI THIỆN BẢO MẬT DỮ LIỆU – DATA SECURITY

Xem tiếp...

TỔNG QUAN VỀ STATISTICS: DESCRIPTIVE STATISTICS (THỐNG KÊ MÔ TẢ)

Trở lại với chủ đề về thống kê, ở phần trước chúng tôi đã giới thiệu đến các bạn các khái niệm về thống kê cũng như lợi ích và ứng dụng của nó, tiếp theo ở phần này, chúng tôi sẽ đề cập đến một mảng kiến thức quan trọng khác đó chính Descriptive statistics (thống kê mô tả)

TỔNG QUAN VỀ STATISTICS: DESCRIPTIVE STATISTICS (THỐNG KÊ MÔ TẢ)

Xem tiếp...

THỰC TRẠNG DATA SECURITY TRÊN TOÀN CẦU

Nếu các bạn có theo dõi những bài viết của chúng tôi về Data management (quản lý dữ liệu) và Data quality (chất lượng dữ liệu), thì chắc cũng biết tầm quan trọng của quá trình Data security; sự ra đời của những bộ luật, điều luật về bảo mật thông tin, dữ liệu như GDPR tại châu Âu, luật An ninh Mạng ở nước ta; đặc biệt là xu hướng khách hàng đang ngày càng quan tâm hơn về tính minh bạch trong việc sử dụng, và khả năng bảo vệ nguồn dữ liệu, thông tin cá nhân của họ tại các công ty.

THỰC TRẠNG DATA SECURITY TRÊN TOÀN CẦU

Xem tiếp...

Cách tốt nhất để thành công với hệ thống phân tích kinh doanh – BI (Business Intelligence)

Như ta đã biết, hệ thống phân tích kinh doanh thông minh (BI) không chỉ là phần mềm. Để triển khai thành công hệ thống BI, doanh nghiệp cần phải có quy trình và cơ sở hạ tầng tốt bên cạnh việc lựa chọn đúng úng dụng phân tích kinh doanh thông minh (BI tools).

Cách tốt nhất để thành công với hệ thống phân tích kinh doanh – BI (Business Intelligence)

Xem tiếp...

CÔNG TY ĐỊNH HƯỚNG DỮ LIỆU (DATA – DRIVEN ENTERPRISE) (PHẦN 1)

Bối cảnh, nguyên nhân tại sao các công ty ngày nay cần định hướng dữ liệu (Data – driven)

Nếu các bạn có theo dõi những các bài viết trước đây của thì chúng tôi đã đề cập nhiều về tầm quan trọng của dữ liệu –  được coi là nguồn sống của mọi tổ chức trong thời đại 4.0 – cũng như các xu hướng của Big Data, Data Analytics, và nhu cầu khai thác dữ liệu để đạt được giá trị, lợi ích trong kinh doanh ngày càng được quan tâm hơn.

CÔNG TY ĐỊNH HƯỚNG DỮ LIỆU (DATA – DRIVEN ENTERPRISE) (PHẦN 1)

Xem tiếp...

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.5) REGRESSION TREE VÀ DECISION RULES

Như vậy chúng ta đã cùng nhau đi qua 4 phần của series bài viết về thuật toán Decision trees hay còn gọi là thuật toán cây quyết định. Chúng ta đã làm quen với định nghĩa tổng quát, các dạng cây quyết định bao gồm phân 2 nhánh – CART, và nhiều nhánh C4.5 sử dụng các công thức Goodness of Split, Gini Index, Entropy kết hợp với Information Gain, hay Gain Ratio để xây dựng mô hình áp dụng cho biến mục tiêu là biến định tính, và chúng ta cũng tiếp cận qua một số cách thức để tăng độ hiệu quả của mô hình, tránh trường hợp Overfitting hay Underfitting như Stopping rule và Pruning method, và nhìn lại những ưu điểm, khuyết điểm một cách tổng thể về Decision Trees.

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.5) REGRESSION TREE VÀ DECISION RULES

Xem tiếp...

Phần mềm hiện thị dữ liệu, phân tích dữ liệu

Một câu nói nổi tiếng của William Glasser, chuyên gia tâm thân học Mỹ:

Chúng ta học….

10% của những gì ta đọc được

20% của những gì ta nghe thấy

30% của những gì ta nhìn thấy

50% của những gì ta nghe và nhìn thấy

70% của những gì ta thảo luận

80% của những gì ta trải nghiệm

95% của những điều ta dạy người khác

Phần mềm hiện thị dữ liệu, phân tích dữ liệu

Xem tiếp...

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.4): ƯU & KHUYẾT ĐIỂM, STOPPING & PRUNING METHOD

Trở lại với chủ đề về các thuật toán cây quyết định Decision trees, như vậy qua các bài viết trước chúng ta đã tìm hiểu về tổng quan thuật toán cây quyết định là gì, làm quen với các dạng thuật toán CART (phân 2 nhánh) sử dụng công thức Goodness of Split, Gini Index và C4.5 (phân nhiều hơn 2 nhánh) sử dụng công thức Entropy kết hợp với Information gain.

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.4): ƯU & KHUYẾT ĐIỂM, STOPPING & PRUNING METHOD

Xem tiếp...

Giá trị suốt vòng đời của khách hàng – Customer lifetime value

Giá trị khách hàng suốt vòng đời – Customer lifetime value

Một trong những khái niệm mà bất kể chuyên gia tiếp thị marketing hay chủ doanh nghiệp cần để ý là giá trị của khách hàng trong suốt vòng đời của họ. Điều này đặc biệt quan trọng khi đề ra chiến lượt tiếp thị marketing, định vị thương hiệu của mỗi nhãn hàng ( brand).Cụ thể hơn là khi đưa ra quyết định, tính toán về chi phí quảng cáo marketing cho mỗi khách hàng và ngân sách cho các chiến dịch tiếp thị marketing.

Giá trị suốt vòng đời của khách hàng – Customer lifetime value

Xem tiếp...

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.3): C4.5 (ENTROPY)

Quay trở lại với chủ đề về Decision trees, thì ở 2 bài viết trước đã giới thiệu đến các bạn khái quát thế nào là thuật toán cây quyết định, bao gồm các thành phần, và một số công thức tính toán để lựa chọn các biến phân nhánh hay cách phân nhánh tối ưu, mục đích dự báo, phân loại, phân nhóm các đối tượng dữ liệu vào các nhóm, các lớp của biến mục tiêu sao cho chính xác nhất.

THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.3): C4.5 (ENTROPY)

Xem tiếp...

Sử dụng số liệu trong kinh doanh thời đại số

Quyển sách mới ra “hiểu số để tăng số – Sexy little number” của Dimitrix Maex & Paul B.Brown đưa ra một góc nhìn tổng hợp trong việc sử dụng số liệu để thực hiện tiếp thị marketing trong thời đại công nghiệp số hoá, dữ liệu lớn. Trong bài này chúng tôi sẽ tóm tắt 1 số ý chính từ quyển sách cho bạn không có thời gian đọc hết quyển sách này.

Sử dụng số liệu trong kinh doanh thời đại số

Xem tiếp...