Classification

by **nth** 29/01/10, 12:58 pm

About Classification

Classification is a data mining function that assigns items in a collection to target categories or classes. The goal of classification is to accurately predict the target class for each case in the data. For example, a classification model could be used to identify loan applicants as low, medium, or high credit risks.

A classification task begins with a data set in which the class assignments are known. For example, a classification model that predicts credit risk could be developed based on observed data for many loan applicants over a period of time. In addition to the historical credit rating, the data might track employment history, home ownership or rental, years of residence, number and type of investments, and so on. Credit rating would be the target, the other attributes would be the predictors, and the data for each customer would constitute a case.

Classifications are discrete and do not imply order. Continuous, floating-point values would indicate a numerical, rather than a categorical, target. A predictive model with a numerical target uses a regression algorithm, not a classification algorithm.

The simplest type of classification problem is binary classification. In binary classification, the target attribute has only two possible values: for example, high credit rating or low credit rating. Multiclass targets have more than two values: for example, low, medium, high, or unknown credit rating.

In the model build (training) process, a classification algorithm finds relationships between the values of the predictors and the values of the target. Different classification algorithms use different techniques for finding relationships. These relationships are summarized in a model, which can then be applied to a different data set in which the class assignments are unknown.

Classification models are tested by comparing the predicted values to known target values in a set of test data. The historical data for a classification project is typically divided into two data sets: one for building the model; the other for testing the model. See "Testing a Classification Model".

Scoring a classification model results in class assignments and probabilities for each case. For example, a model that classifies customers as low, medium, or high value would also predict the probability of each classification for each customer.

Classification has many applications in customer segmentation, business modeling, marketing, credit analysis, and biomedical and drug response modeling.

by **nth** 29/01/10, 01:33 pm

Về phân loại

Phân loại là một chức năng khai thác dữ liệu mà chỉ định các mục trong bộ sưu tập một loại để nhắm mục tiêu hoặc các lớp. Mục tiêu của phân loại là để dự đoán chính xác của lớp mục tiêu cho mỗi trường hợp trong dữ liệu. Ví dụ, một mô hình phân loại có thể được sử dụng để xác định người xin vay là thấp, trung bình, hoặc những rủi ro tín dụng cao.

Một nhiệm vụ phân loại bắt đầu với một bộ dữ liệu trong đó tập lớp được biết. Ví dụ, một mô hình phân loại dự báo rủi ro tín dụng có thể được phát triển dựa trên dữ liệu quan sát cho người xin vay nhiều trong một khoảng thời gian. Ngoài những đánh giá tín dụng lịch sử, dữ liệu có thể theo dõi lịch sử việc làm, quyền sở hữu nhà hoặc cho thuê, năm cư trú, số lượng và loại hình đầu tư, vv. Đánh giá tín dụng sẽ là mục tiêu, các thuộc tính khác sẽ là yếu tố tiên đoán, và dữ liệu cho mỗi khách hàng sẽ chiếm một trường hợp.

Phân loại được rời rạc và không có hiệu quả. Liên tục, các giá trị floating-point sẽ chỉ ra một số, chứ không phải là mục tiêu một ro ràng,. Một mô hình tiên đoán với một mục tiêu số sử dụng một thuật toán hồi qui, không phải là một giải thuật phân loại

Loại đơn giản nhất của vấn đề phân loại là phân loại nhị phân. Trong phân loại nhị phân, thuộc tính mục tiêu chỉ có hai giá trị: ví dụ, tín dụng đánh giá cao hoặc xếp hạng tín dụng thấp. Multiclass có nhiều hơn hai giá trị: ví dụ, thấp, trung bình, cao, hoặc không rõ xếp hạng tín dụng.

Trong mô hình xây dựng (dạy) quy trình, thuật toán phân loại tìm thấy mối quan hệ giữa các giá trị của các yếu tố tiên đoán và các giá trị của mục tiêu. Thuật toán phân loại khác nhau sử dụng các kỹ thuật khác nhau cho việc tìm kiếm các mối quan hệ. Những mối quan hệ được tóm tắt trong một mô hình, mà sau đó có thể được áp dụng cho một tập dữ liệu khác nhau, trong đó các lớp tập là chưa biết.

Phân loại các mô hình được kiểm tra bằng cách so sánh các giá trị dự đoán những giá trị mục tiêu được biết đến trong một tập hợp các dữ liệu thử nghiệm. Các dữ liệu lịch sử cho một dự án phân loại thường được chia thành hai tập hợp dữ liệu: một cho xây dựng các mô hình; việc khác để thử nghiệm các mô hình.

Ghi được một mô hình phân loại kết quả trong lớp học và bài tập xác suất cho mỗi trường hợp. Ví dụ, một mô hình mà phân loại các khách hàng như là thấp, trung bình, hoặc giá trị cao cũng sẽ dự đoán xác suất của từng phân loại cho mỗi khách hàng
Phân loại có nhiều ứng dụng trong phân khúc khách hàng, mô hình kinh doanh tiếp thị, phân tích tín dụng, và y sinh học và mô hình hóa phản ứng thuốc.

"P/S: xin lỗi, tại H hog giỏi tiếng anh, dịch cũng dở. Chỉ tại yêu cầu cấp bách cần thiết cho chính bản thân mình hiểu. Nên dịch vậy thôi. Nếu bạn nào giỏi anh văn can góp ý để chỉnh sửa nội sung, thì vui lòng góp ý. H luôn xin tiếp thu ý kiến"