C語言實(shí)現(xiàn)K-Means算法
一、聚類和聚類算法
聚類,就是將數(shù)據(jù)對象劃分成若干個(gè)類,在同一個(gè)類中的對象具有較高的相似度,而不同的類相似度較小。聚類算法將數(shù)據(jù)集合進(jìn)行劃分,分成彼此相互聯(lián)系的若干類,以此實(shí)現(xiàn)對數(shù)據(jù)的深入分析和數(shù)據(jù)價(jià)值挖掘的初步處理階段。例如在現(xiàn)代商業(yè)領(lǐng)域,聚類分析算法可以從龐大的數(shù)據(jù)集合中對消費(fèi)者的消費(fèi)習(xí)慣、消費(fèi)傾向,以方便決策者制訂消費(fèi)策略??傊鳛閿?shù)據(jù)挖掘中的一個(gè)模塊,聚類分析算法可以作為一個(gè)單獨(dú)的工具已發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層信息,并概括出每一類的特點(diǎn)。聚類分析算法也可作為數(shù)據(jù)挖掘算法中其他分析算法的一個(gè)預(yù)處理步驟。
在數(shù)據(jù)挖掘領(lǐng)域,聚類分析算法可以分為一下幾個(gè)大類,包括劃分法、層次法、基于密度的方法、基于網(wǎng)絡(luò)的方法和基于模型的方法?;趧澐值幕舅枷刖褪峭ㄟ^迭代的方法將含有N個(gè)數(shù)據(jù)對象的數(shù)據(jù)集分成K個(gè)聚類。具體的步驟就是,用戶先給出要?jiǎng)澐值膫€(gè)數(shù),然后通過一定的算法反復(fù)的進(jìn)行迭代,使得每次得到的分組比前一次更加接近預(yù)期目標(biāo),是否優(yōu)化的判定標(biāo)準(zhǔn)是同組數(shù)據(jù)之間不同數(shù)據(jù)之間的相似程度,同組數(shù)據(jù)相似程度越大,組間似程度越小越優(yōu)化。
K-means聚類算法的核心思想就是基于對數(shù)據(jù)集合的劃分,它把N個(gè)數(shù)據(jù)對象劃分成K個(gè)類,使每個(gè)類中的數(shù)據(jù)點(diǎn)到該聚類中心的距離平方和最小。下面我將利用C語言來實(shí)現(xiàn)K-means算法,并對該算法在輸入不同的聚類個(gè)數(shù)、改變數(shù)據(jù)點(diǎn)的密集程度以及初始聚類中心點(diǎn)的選擇三個(gè)方面來測試該算法。
二、K-means算法實(shí)現(xiàn)步驟
通過對聚類和K-Means算法思想的了解,C語言算法的實(shí)現(xiàn)過程如下:
(1)通過文件輸入N個(gè)數(shù)據(jù)點(diǎn),并選取其中K(K<N)個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心;
(2)對剩余的數(shù)據(jù)點(diǎn)分別計(jì)算到各個(gè)聚類聚點(diǎn)中心的歐氏距離,并將該點(diǎn)劃分到最近的類中;
(3)重新計(jì)算各個(gè)聚類的聚點(diǎn)中心;
(4)與之前的聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)到(2),否則結(jié)束迭并輸出結(jié)果。
三、K-means算法實(shí)現(xiàn)
(一)實(shí)現(xiàn)思路
通過以上對K-means算法的了解,該算法主要是通過迭代的思想來求解K個(gè)聚類的中心。由于傳統(tǒng)數(shù)組需要先定義再使用,且在使用的過程中不能實(shí)現(xiàn)數(shù)組長度的動(dòng)態(tài)增長。同時(shí)考慮到設(shè)計(jì)該算法時(shí),沒有涉及到在迭代過程中各個(gè)數(shù)據(jù)點(diǎn)的插入和刪除,各個(gè)數(shù)據(jù)點(diǎn)具體劃分到那個(gè)聚類中,是由結(jié)構(gòu)體成員變量中的className來標(biāo)識,因此選用了Vector來作為存儲(chǔ)數(shù)據(jù)的容器,這樣當(dāng)從文件輸入大量數(shù)據(jù)時(shí),由程序自己開辟需要的存儲(chǔ)空間。同時(shí),也可通過Vector向量容器提供的size和迭代器方法,實(shí)現(xiàn)遍歷并按照所在聚類進(jìn)行輸出。
每個(gè)數(shù)據(jù)點(diǎn)都含有X、Y坐標(biāo),算法初始狀態(tài)時(shí),指定聚類的具體個(gè)數(shù)K,初試狀態(tài)的K個(gè)聚類中心由輸入文件的前K個(gè)數(shù)據(jù)點(diǎn)來指定。算法在每一次迭代中,需要計(jì)算各個(gè)點(diǎn)到K個(gè)聚類中心坐標(biāo)的歐氏距離,并選擇距離最近的一個(gè)聚類,用該聚類的名稱標(biāo)識當(dāng)前數(shù)據(jù)點(diǎn)。當(dāng)所有數(shù)據(jù)點(diǎn)遍歷完后,計(jì)算劃分到每個(gè)聚類中所有數(shù)據(jù)點(diǎn)X與Y的均值,并將該均值與前一次聚類中心點(diǎn)的坐標(biāo)相比較。當(dāng)X與Y的誤差小于或者等于1e-6時(shí),則結(jié)束迭代并輸出收斂后的K歌聚類的中心坐標(biāo)。
(二)變量和函數(shù)說明
(1)定義結(jié)構(gòu)體類型,用于存儲(chǔ)數(shù)據(jù)點(diǎn)坐標(biāo)、所在聚類、與聚類中心距離
typedef struct point { float x,y; //數(shù)據(jù)點(diǎn)的坐標(biāo) string className; //所屬的聚類 float distance; //距離聚類中心的距離 }Point;
(2)變量聲明
vector<Point> dataVector:存儲(chǔ)從文件讀取的數(shù)據(jù)
vector<Point> classPoints:存儲(chǔ)聚類坐標(biāo)
vector<Point> &totalPoints):存儲(chǔ)所有的數(shù)據(jù)點(diǎn)
(3)函數(shù)聲明
字符串轉(zhuǎn)換函數(shù):將整型變量轉(zhuǎn)換成字符串類型:
string converToString(int x);
讀入數(shù)據(jù)函數(shù):從文件讀入坐標(biāo)數(shù)據(jù):
vector<Point> readDataFile(string fileName);
初始化數(shù)據(jù)集合函數(shù):
void initDataset(int classNum,vector<Point> dataVector,vector<Point> &classPoints,vector<Point> &totalPoints);
計(jì)算各個(gè)數(shù)據(jù)點(diǎn)距離聚點(diǎn)中心的歐氏距離的函數(shù):
string computerDistance(Point *p_totalPoints,vector<Point> &classPoints);
將各個(gè)點(diǎn)劃分到相應(yīng)類的函數(shù):
void kMeansClustering(int classNum,vector<Point> totalPoints,vector<Point> classPoints);
(三)核心代碼(部分)
(1)初始化數(shù)據(jù)集合函數(shù):
void initDataset(int classNum,vector<Point>dataVector,vector<Point>&classPoints, vector<Point>&totalPoints) { int i,j; Point point; for(i=0,j=1; i<dataVector.size(); i++) { if(j<=classNum) //classNum表示聚類的編號 { point.x=dataVector[i].x; point.y=dataVector[i].y; point.distance=dataVector[i].distance; point.className=converToString(j);//將整型類型轉(zhuǎn)換成字符串類型 classPoints.push_back(point); j++; } point.x=dataVector[i].x; point.y=dataVector[i].y; point.distance=dataVector[i].distance; totalPoints.push_back(point); } }
(2)K-means函數(shù):
void kMeansClustering(int classNum,vector<Point> totalPoints,vector<Point> classPoints) { float tempX=0;//計(jì)算聚類中所有數(shù)據(jù)點(diǎn)X的均值 float tempY=0;//計(jì)算聚類中所有數(shù)據(jù)點(diǎn)Y的均值 int count=0; //記錄每一個(gè)類中數(shù)據(jù)點(diǎn)的數(shù)目 float errorX=INT_MAX; //假設(shè)初始時(shí)誤差最大 float errorY=INT_MAX; vector<Point>::iterator p_totalPoints; vector<Point>::iterator p_classPoints; Point temp; int i; while(errorX > 1e-6 && errorY > 1e-6) { for(p_totalPoints=totalPoints.begin(); p_totalPoints!=totalPoints.end(); p_totalPoints++) { //將所有的點(diǎn)就近分類 string className=computerDistance(p_totalPoints,classPoints); (*p_totalPoints).className=className; } errorX=0; errorY=0; //按照均值重新劃分聚類中心點(diǎn) for(p_classPoints=classPoints.begin(); p_classPoints!=classPoints.end(); p_classPoints++) { count=0; tempX=0; tempY=0; cout<<"Partition to cluster center "<<p_classPoints->className<<":"; for(p_totalPoints=totalPoints.begin(); p_totalPoints!=totalPoints.end(); p_totalPoints++) { if((*p_totalPoints).className==(*p_classPoints).className) { cout<<" ("<<(*p_totalPoints).x<<","<<(*p_totalPoints).y<<") "; count++; tempX+=(*p_totalPoints).x; tempY+=(*p_totalPoints).y; } } cout<<endl; tempX /=count; tempY /=count; errorX +=fabs(tempX - (*p_classPoints).x); errorY +=fabs(tempY - (*p_classPoints).y); //計(jì)算X與Y均值 (*p_classPoints).x=tempX; (*p_classPoints).y=tempY; } int i=0; for(p_classPoints=classPoints.begin(); p_classPoints!=classPoints.end(); p_classPoints++,i++) { cout<<"Cluster center "<<i+1<<": x="<<(*p_classPoints).x<<" y="<<(*p_classPoints).y<<endl; } cout<<"-----------------------------------------------------------------"<<endl; } cout<<"Result value convergence"<<endl; i=0; for(p_classPoints=classPoints.begin(); p_classPoints!=classPoints.end(); p_classPoints++,i++) { cout<<"Cluster center "<<i+1<<": x="<<(*p_classPoints).x<<" y="<<(*p_classPoints).y<<endl; } cout<<"-----------------------------------------------------------------"<<endl; }
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持我們。
上一篇:c++多線程之死鎖的發(fā)生的情況解析(包含兩個(gè)歸納,6個(gè)示例)
欄 目:C語言
本文標(biāo)題:C語言實(shí)現(xiàn)K-Means算法
本文地址:http://mengdiqiu.com.cn/a1/Cyuyan/892.html
您可能感興趣的文章
- 04-02c語言函數(shù)調(diào)用后清空內(nèi)存 c語言調(diào)用函數(shù)刪除字符
- 04-02c語言的正則匹配函數(shù) c語言正則表達(dá)式函數(shù)庫
- 04-02func函數(shù)+在C語言 func函數(shù)在c語言中
- 04-02c語言中對數(shù)函數(shù)的表達(dá)式 c語言中對數(shù)怎么表達(dá)
- 04-02c語言用函數(shù)寫分段 用c語言表示分段函數(shù)
- 04-02c語言編寫函數(shù)冒泡排序 c語言冒泡排序法函數(shù)
- 04-02c語言沒有round函數(shù) round c語言
- 04-02c語言分段函數(shù)怎么求 用c語言求分段函數(shù)
- 04-02C語言中怎么打出三角函數(shù) c語言中怎么打出三角函數(shù)的值
- 04-02c語言調(diào)用函數(shù)求fibo C語言調(diào)用函數(shù)求階乘


閱讀排行
本欄相關(guān)
- 04-02c語言函數(shù)調(diào)用后清空內(nèi)存 c語言調(diào)用
- 04-02func函數(shù)+在C語言 func函數(shù)在c語言中
- 04-02c語言的正則匹配函數(shù) c語言正則表達(dá)
- 04-02c語言用函數(shù)寫分段 用c語言表示分段
- 04-02c語言中對數(shù)函數(shù)的表達(dá)式 c語言中對
- 04-02c語言編寫函數(shù)冒泡排序 c語言冒泡排
- 04-02c語言沒有round函數(shù) round c語言
- 04-02c語言分段函數(shù)怎么求 用c語言求分段
- 04-02C語言中怎么打出三角函數(shù) c語言中怎
- 04-02c語言調(diào)用函數(shù)求fibo C語言調(diào)用函數(shù)求
隨機(jī)閱讀
- 01-10SublimeText編譯C開發(fā)環(huán)境設(shè)置
- 08-05織夢dedecms什么時(shí)候用欄目交叉功能?
- 01-10delphi制作wav文件的方法
- 01-11Mac OSX 打開原生自帶讀寫NTFS功能(圖文
- 08-05dedecms(織夢)副欄目數(shù)量限制代碼修改
- 01-10使用C語言求解撲克牌的順子及n個(gè)骰子
- 01-11ajax實(shí)現(xiàn)頁面的局部加載
- 08-05DEDE織夢data目錄下的sessions文件夾有什
- 04-02jquery與jsp,用jquery
- 01-10C#中split用法實(shí)例總結(jié)