Thứ Năm, 13 tháng 5, 2010

Khai thác dữ liệu với C # và ADO.NET





  1. Khai thác dữ liệu với C # và ADO.NET
  2. "Tạo ra một mô hình khai thác mỏ '
  3. 'Tạo dự báo'




Data Miningvới C # và ADO.NET - 'Tạo ra một mô hình khai thác mỏ'
(Trang 2 của 3)
Khai thác dữ liệu được sử dụng để phân tích dự đoán của nhiều công ty lớn. Việc công nghệcho phép một bộ sưu tập sử dụng cửa hàng bán lẻ của dữ liệu thu thập được từ khách hàng mua để dự đoán tương tự, ví dụ, đó là một bài thuốc nam tuổi từ 25-30 sẽ mua tại cửa hàng địa phương của mình. Các thông tin thu thập (và sau này khai thác) được chứa trong một cái gì đó gọi là một mô hình dữ liệu đào tạo , về mà bạn sẽ tìm hiểu thêm trong bài viết này.

Bề ngoài, bạn có thể xây dựng tất cả các công cụ chính mình, nhưng bạn không cần phải làm như vậy. Để giúp các công ty cá ra dữ liệu và đưa ra dự đoán trên dữ liệu mô hình đào tạo, Microsoft đã đưa ra một ngôn ngữ truy vấn đặc biệt cho khai thác dữ liệu, được gọi là DMX. Ngôn ngữ truy vấn DMX sử dụng một wrapper đơn giản của mô hình đối tượng ADO để duyệt và thao tác dữ liệu chứa trong đó là một cơ sở dữ liệu SQL Server 2000/2005 Dịch vụ phân tích.
Hầu hết thời gian, bạn tạo ra các mô hình khai thác sử dụng tích hợp trong trình thuật trong SQL Server Analysis Services. ứng dụng web của bạn thường xuyên nhất sẽ được sử dụng để thu thập kết quả dự báo từ các mô hình này khai thác được đào tạo, và báo cáo lại cho người sử dụng. Trong bài này, tôi giới thiệu bạn đến với ADO.NET DMX sử dụng bằng cách kết nối đến một-OLE DB cung cấp cho SQL Server Analysis Services.
Lưu ý: Tôi giả sử bạn có một số kiến thức về SQL Server, vì vậy tôi chỉ liên lạc trên Dịch vụ Phân tích vì nó gắn liền với việc DMX các truy vấn và các đối tượng ADO các truy vấn sử dụng cho truy cập dữ liệu.
Thoạt nhìn, loại hình cơ sở dữ liệu này là tương tự như một cơ sở dữ liệu quan hệ với các hàng và các phím, nhưng schema để mô tả dữ liệu là rất khác nhau. Tôi không cần phải đi vào bất kỳ thông tin chi tiết về các loại dữ liệu, hoặc dữ liệu khai thác khác nhau thuật toán bạn có thể áp dụng cho mô hình một, các đối tượng này có thể span một cuốn sách toàn bộ. Tôi chỉ sẽ giải thích những điều này khi họ liên quan đến các ví dụ thể hiện trong bài viết này.
Cách tốt nhất để thể hiện mã này là để tạo, đào tạo, và làm dự báo chống lại một mô hình khai thác mới. Bạn có thể sử dụng đoạn mã này như là một điểm khởi đầu cho các ứng dụng của riêng bạn.
Tạo ra một mô hình khai thác mỏ
Điều đầu tiên cần làm là bao gồm một tham chiếu đến thư viện OLE DB cho ADO.NET:
Tiếp theo, thiết lập một kết nối đến MS Dịch vụ Phân tích năm 2005 (viết tắc là MSA):
OleDbConnection conn = new OleDbConnection (); conn.ConnectionString = "Provider = MSOLAP.3; Data Source = localhost;" + "Initial Catalog = MyCatalog"; Conn.Open ();
Để có được mã này làm việc thông qua một trang Web, bạn cần cấp quyền truy cập người dùng ASPNET để các cửa hàng thông qua Quản lý Studio MSAS.using. Ngoài ra, bạn không thể sử dụng một địa chỉ IP cho các DataSourcetài sản của chuỗi kết nối. Vùng thống kê đô sẽ cho bạn một lỗi, vì nó đòi hỏi phải có một tên máy.
Dịch vụ Phân tích cơ sở dữ liệu thường được gọi là catalog. Trong ví dụ này, chúng tôi kết nối đến một cơ sở dữ liệu được đặt tên MyCatalog.
Tiếp theo, chúng tôi sử dụng một DMX Tạotuyên bố để tạo ra một mô hình khai thác mới. Mục đích của mô hình này là để dự đoán tỷ lệ khách hàng sẽ chọn một thẻ thành viên nhất định, dựa trên một số nhân khẩu học của họ. Báo cáo DMX để tạo mô hình tương tự như của phiên bản SQL để tạo một bảng:
CreateModel String = "Tạo mô hình khai thác mỏ MemberCard_Prediction" + "(" + "CustomerID dài trọng điểm," + "Giới Tính văn bản rời rạc," + "Age dài liên tục," + "Nghiệp vụ văn bản rời rạc," + "thu nhập dài liên tục," + " Houseowner văn bản rời rạc, "+" văn bản rời rạc MemberCard dự đoán "+") "+" Sử dụng Microsoft_Decision_Trees "; OleDbCommand cmd = new OleDbCommand (CreateModel, conn); CMD.ExecuteNonQuery ();
Trong tuyên bố trên, sau khi tuyên bố kiểu dữ liệu cho mỗi cột, chúng tôi còn thêm một loại nội dung. Một kiểu nội dung, như Liên tụchoặcRời rạc, nói với các thuật toán chúng tôi đang áp dụng mô hình khai thác khoáng sản (trong ví dụ này, Microsoft quyết định Trees) làm thế nào dữ liệu trong các cột có thể phân phát. Số, ví dụ, thường phân bố liên tục, chẳng hạn như Age hoặc thu nhập. Tên và nhân khẩu học, chẳng hạn như nghề và giới tính, là rời rạc; đó là, không có hoa văn. Những dòng cuối cùng của Tạobáo cáo sử dụng Dự đoán từ khoátrên các Membercardcột, nói với các thuật toán mà tất cả các cột khác sẽ dự đoán kết quả của cột này cho mô hình.
Đào tạo một mô hình khai thác mỏ
Đào tạo theo mô hình bao gồm các thuật toán kiểm tra các trường hợp khai thác dữ liệu đầu vào và tìm kiếm mối tương quan trong dữ liệu. Một khi những tương quan được xác định, mô hình được repopulated với những mô hình mới.
Mô hình chế biến bắt đầu hơn là dữ liệu mới được đưa vào mô hình; thời gian qua, các mô hình tiếp tục được sửa đổi, làm cho dự đoán chính xác hơn.
Để cư mô hình với dữ liệu, chúng tôi sử dụng DMX Chèntuyên bố:
PipeDataToModel String = "INSERT INTO MemberCard_Prediction" + "(ID khách hàng, giới tính, tuổi, nghề nghiệp, thu nhập, HouseOwner, MemberCard)" + "OpenQuery (customerdbsource," + "'Chọn ID khách hàng, giới tính, tuổi tác, nghề nghiệp, thu nhập, houseowner, membercard TỪ của khách hàng) "; OleDbCommand cmd = new OleDbCommand (PipeDataToModel, conn); CMD.ExecuteNonQuery ();
Bạn có thể thấy bằng cách truy vấn này mà chúng tôi đang tạo ra một lộ trình giữa một bảng gọi là Khách hàngtrong một cơ sở dữ liệu trên một máy chủ SQL, được xác định bởi nguồn dữ liệu customerdbsource, và mô hình khai thác của chúng tôi. Mô hình này là một sự phản ánh rằng bảng ( Khách hàng), cột cho cột, vì vậy nó rất dễ dàng để cư.
OpenQuery là một chức năng DMX để thực hiện các truy vấn đối với cơ sở dữ liệu DMX quan hệ từ bên trong một phiên kết nối OLE-DB. Các nguồn dữ liệu quan hệ (nguồn dữ liệu đến một cơ sở dữ liệu quan hệ) được tạo ra bên trong Vùng thống kê đô cho cửa hàng đó. Cách phổ biến nhất là sử dụng Kinh doanh thông minh Studio để tạo ra datasources và quản lý dự án Vùng thống kê đô của bạn. Sau khi dữ liệu được đường ống vào mô hình, bạn có thể sử dụng thuật toán của bạn được lựa chọn để làm trường hợp thử nghiệm và xác định các mẫu.

1 nhận xét:

Hãy để lại tin nhắn của bạn nhé. Mình luôn muốn nghe ý kiến của bạn. Cám ơn bạn đã ghé thăm blog nha. See you