linux c++模擬簡易網(wǎng)絡(luò)爬蟲實(shí)例
廢話不多說,直接上代碼
/* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. */ /* * File: main.cpp * Author: yangchao * */ #include <iostream> #include <string> #include <netdb.h> #include <string.h> #include <stdlib.h> using namespace std; void parseHostAndPagePath(const string url,string &hostUrl,string &pagePath){ hostUrl=url; pagePath="/"; int pos=hostUrl.find("http://"); if(-1!=pos) hostUrl=hostUrl.replace(pos,7,""); pos=hostUrl.find("https://"); if(-1!=pos) hostUrl=hostUrl.replace(pos,8,""); pos=hostUrl.find("/"); if(-1!=pos) { pagePath=hostUrl.substr(pos); hostUrl=hostUrl.substr(0,pos); } } string getPageContent(const string url){ struct hostent *host; string hostUrl,pagePath; parseHostAndPagePath(url,hostUrl,pagePath); if(0==(host=gethostbyname(hostUrl.c_str()))) { cout<<"gethostbyname error\n"<<endl; exit(1); } struct sockaddr_in pin; int port=80; bzero(&pin,sizeof(pin)); pin.sin_family=AF_INET; pin.sin_port=htons(port); pin.sin_addr.s_addr=((struct in_addr*)(host->h_addr))->s_addr; int isock; if((isock=socket(AF_INET,SOCK_STREAM,0))==-1) { cout<<"open socket error\n"<<endl; exit(1); } string requestHeader; requestHeader="GET "+pagePath+" HTTP/1.1\r\n"; requestHeader+="Host: "+hostUrl+"\r\n"; requestHeader+="Accept: */*\r\n"; requestHeader+="User-Agent: Mozilla/4.0(compatible)\r\n"; requestHeader+="connection:Keep-Alive\r\n"; requestHeader+="\r\n"; if(connect(isock,(const sockaddr*)&pin,sizeof(pin))==-1){ cout<<"connect error\n"<<endl; exit(1); } if(send(isock,requestHeader.c_str(),requestHeader.size(),0)==-1){ cout<<"send error\n"<<endl; exit(1); } struct timeval timeout={1,0}; setsockopt(isock,SOL_SOCKET,SO_RCVTIMEO,(char*)&timeout,sizeof(struct timeval)); char c; bool flag=true; while(recv(isock,&c,1,0)>0){ if('\r'==c){ continue; }else if('\n'==c){ if(false==flag) break; flag=false; }else{ flag=true; } } int len,BUFFER_SIZE=512; char buffer[BUFFER_SIZE]; string pageContent=""; while((len=recv(isock,buffer,BUFFER_SIZE-1,0))>0){ buffer[len]='\0'; pageContent+=buffer; } return pageContent; } int main(int argc, char** argv) { cout<<getPageContent("http://www.hao123.com")<<endl; return 0; }
以上這篇linux c++模擬簡易網(wǎng)絡(luò)爬蟲實(shí)例就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持我們。
上一篇:C\C++ 獲取當(dāng)前路徑實(shí)例詳解
欄 目:C語言
下一篇:C++實(shí)現(xiàn)稀疏矩陣的壓縮存儲實(shí)例
本文標(biāo)題:linux c++模擬簡易網(wǎng)絡(luò)爬蟲實(shí)例
本文地址:http://mengdiqiu.com.cn/a1/Cyuyan/1478.html
您可能感興趣的文章
- 04-02c語言沒有round函數(shù) round c語言
- 01-10深入理解C++中常見的關(guān)鍵字含義
- 01-10使用C++實(shí)現(xiàn)全排列算法的方法詳解
- 01-10c++中inline的用法分析
- 01-10用C++實(shí)現(xiàn)DBSCAN聚類算法
- 01-10全排列算法的非遞歸實(shí)現(xiàn)與遞歸實(shí)現(xiàn)的方法(C++)
- 01-10C++大數(shù)模板(推薦)
- 01-10淺談C/C++中的static與extern關(guān)鍵字的使用詳解
- 01-10深入C/C++浮點(diǎn)數(shù)在內(nèi)存中的存儲方式詳解
- 01-10深入解析Linux下\r\n的問題


閱讀排行
本欄相關(guān)
- 04-02c語言函數(shù)調(diào)用后清空內(nèi)存 c語言調(diào)用
- 04-02func函數(shù)+在C語言 func函數(shù)在c語言中
- 04-02c語言的正則匹配函數(shù) c語言正則表達(dá)
- 04-02c語言用函數(shù)寫分段 用c語言表示分段
- 04-02c語言中對數(shù)函數(shù)的表達(dá)式 c語言中對
- 04-02c語言編寫函數(shù)冒泡排序 c語言冒泡排
- 04-02c語言沒有round函數(shù) round c語言
- 04-02c語言分段函數(shù)怎么求 用c語言求分段
- 04-02C語言中怎么打出三角函數(shù) c語言中怎
- 04-02c語言調(diào)用函數(shù)求fibo C語言調(diào)用函數(shù)求
隨機(jī)閱讀
- 04-02jquery與jsp,用jquery
- 08-05dedecms(織夢)副欄目數(shù)量限制代碼修改
- 01-10使用C語言求解撲克牌的順子及n個(gè)骰子
- 01-10delphi制作wav文件的方法
- 08-05織夢dedecms什么時(shí)候用欄目交叉功能?
- 08-05DEDE織夢data目錄下的sessions文件夾有什
- 01-10SublimeText編譯C開發(fā)環(huán)境設(shè)置
- 01-10C#中split用法實(shí)例總結(jié)
- 01-11ajax實(shí)現(xiàn)頁面的局部加載
- 01-11Mac OSX 打開原生自帶讀寫NTFS功能(圖文