前面幾篇文檔,我們介紹了織夢(mèng)自帶采集器使用教程,但是不是每個(gè)用戶都可以用都好,總之采集這個(gè)東西要實(shí)站積累經(jīng)驗(yàn)才行,因?yàn)槟繕?biāo)站代碼不同,只有碰到不同的問(wèn)題積累起來(lái)才能上手操作。
第一步、我們打開(kāi)織夢(mèng)后臺(tái)點(diǎn)擊采集——采集節(jié)點(diǎn)管理——增加新節(jié)點(diǎn)
第二步、新增節(jié)點(diǎn)-配置網(wǎng)址索引
填寫(xiě)要采集的網(wǎng)站的列表相關(guān)規(guī)則,
查看采集站點(diǎn)的編碼和網(wǎng)站源碼
我們右鍵單擊,點(diǎn)擊查看源碼,在源碼的開(kāi)頭位置,找到一個(gè)寫(xiě)有charset=某一編碼的meta標(biāo)簽,比如charset="gb2312",這個(gè)就是所說(shuō)的網(wǎng)站編碼了
選擇采集站點(diǎn)的編碼
第三步、新增節(jié)點(diǎn)-配置文章網(wǎng)址匹配規(guī)則
我們查看采集站點(diǎn)的列表頁(yè)源碼,找到文章列表開(kāi)始html和結(jié)束html標(biāo)簽,分別把它們復(fù)制到增加采集節(jié)點(diǎn)->文章網(wǎng)址匹配規(guī)則的"區(qū)域開(kāi)始的HTML"和“區(qū)域結(jié)束的HTML”輸入框中。你不一定選擇右鍵查看源碼來(lái)找到文章列表開(kāi)始標(biāo)簽,你可以在文章開(kāi)始的地方右鍵單擊,審查元素(chrome瀏覽器,firefox是查看元素),這樣就更方便的找到文章列表開(kāi)始和結(jié)束的標(biāo)簽了。
設(shè)置之后我們點(diǎn)擊"保存信息并進(jìn)入下一步設(shè)置"
第四步:網(wǎng)址獲取規(guī)則測(cè)試
如果在測(cè)試結(jié)果發(fā)現(xiàn)有無(wú)關(guān)的網(wǎng)址信息,說(shuō)明的第五步中的網(wǎng)址過(guò)濾規(guī)則有誤或者沒(méi)有填寫(xiě)過(guò)濾規(guī)則。如果發(fā)現(xiàn)采集有誤,你可以返回上一次修改,沒(méi)有就點(diǎn)擊“保存信息并進(jìn)入下一步設(shè)置”。

第五步:內(nèi)容字段獲取規(guī)則
我們查看采集站點(diǎn)的文章源碼,找到相關(guān)選項(xiàng)的開(kāi)始和結(jié)束html標(biāo)簽,填寫(xiě)入指定位置,開(kāi)始和結(jié)束標(biāo)簽以"[內(nèi)容]"分格。
設(shè)置完畢,我們點(diǎn)擊"保存配置并預(yù)覽"
第六步:過(guò)濾規(guī)則
在第七步中的匹配規(guī)則后面,都 有一個(gè)過(guò)濾規(guī)則,這個(gè)過(guò)濾規(guī)則是用來(lái)過(guò)濾無(wú)需采集的內(nèi)容。
比如,網(wǎng)易每篇文章都有一個(gè)放置廣告的iframe標(biāo)簽,我們要采集網(wǎng)易的文章,不可能采集回來(lái)之后,一篇一篇得去刪除這個(gè)廣告。但是如何去除呢?去除方法就是那個(gè)過(guò)濾規(guī)則,我們點(diǎn)擊常用規(guī)則,就會(huì)彈出一個(gè)小窗口,列出了常用的過(guò)濾規(guī)則,我們只需點(diǎn)擊要們要過(guò)濾的規(guī)則即可,要過(guò)濾網(wǎng)易文章中的iframe標(biāo)簽,我們就點(diǎn)擊iframe即可。
測(cè)試內(nèi)容字段設(shè)置
因?yàn)榫W(wǎng)易有的文章開(kāi)頭是<div id="endText">,有的文章開(kāi)頭是<div id="endText" class="end-text">,所以會(huì)出現(xiàn)采集出錯(cuò)的情況。
如果你現(xiàn)在就要采集,你可以點(diǎn)擊保存并采集。這里我選擇僅保存
采集內(nèi)容(一)
回到采集節(jié)點(diǎn)管理的界面,也就是第一步中的界面,我們選擇節(jié)點(diǎn),點(diǎn)擊采集
采集內(nèi)容(二)
查看已下載
可以在采集界面(即第十步中的界面)的右上角,點(diǎn)擊“查看已下載”。也可以在“采集節(jié)點(diǎn)管理”的界面里點(diǎn)擊“查看已下載”。這里以第二個(gè)方法為例。
導(dǎo)出內(nèi)容
選擇要導(dǎo)入到的欄目,數(shù)據(jù)量,是否生成html文件 ,隨機(jī)推薦數(shù)量
最終結(jié)果