對(duì)于設(shè)置列表分頁(yè),下圖設(shè)置是最常見也是最常用的。
現(xiàn)在教大家另外一個(gè)獲取分頁(yè)的辦法,就是通過列表頁(yè)分頁(yè)采集獲取功能來(lái)自動(dòng)獲取分頁(yè)。
使用這個(gè)功能,起始頁(yè)就只需要把首頁(yè)地址添加進(jìn)去就可以了如下圖:
分頁(yè)設(shè)置是在 “多級(jí)網(wǎng)址獲取”里的“列表分頁(yè)獲取”如下圖:
上圖“從該區(qū)域中提取列表分頁(yè)網(wǎng)址”這里就是找到源代碼里面分頁(yè)開始和結(jié)束,中間包含的地址就分頁(yè)地址。
對(duì)于那種分頁(yè)全部列出來(lái)的,設(shè)置好這一步就可以了,但是很多情況下分頁(yè)都不是完全列出來(lái)的,中間會(huì)有省略號(hào)代替如下圖:
現(xiàn)在針對(duì)全部列出,和不是全部列出這2種情況,做一個(gè)都適用的設(shè)置,我一直都是用這種方式獲取,幾乎解決所有的網(wǎng)站。
我們重要的是要找到當(dāng)前頁(yè)源代碼的特點(diǎn)。我是用http://news.qq.com/newsgn/zhxw/shizhengxinwen.htm 這個(gè)列表頁(yè)來(lái)做說(shuō)明的。
我們看下第一頁(yè)分頁(yè)源代碼的情況如下圖:
再看下第二頁(yè)源代碼的情況如下圖:
然后我們不再一頁(yè)一頁(yè)看隨便看一頁(yè),查看源代碼我這里選第五頁(yè)如下圖:
通過紅色標(biāo)注,大家看到規(guī)律了沒有?當(dāng)前頁(yè)都是<strong></strong>這個(gè)代碼后面緊接著一個(gè)<a >就是下一頁(yè)地址。
也就是說(shuō)我們是要通過當(dāng)前頁(yè)獲取下一頁(yè),這樣一級(jí)一級(jí)的向下獲取,直至把所有分頁(yè)獲取到。
那么放到采集器里面的表示就是從<div class="pageNav">開始,中間我不管是什么用(*)表示,然后遇到第一個(gè)<strong>(*)strong>,因?yàn)轫?yè)碼也是變化的所以中間我用(*)表示變化的。
然后到再到第一次出現(xiàn)</a> 做為結(jié)束,中間包含的就是下一頁(yè)地址。
而且分頁(yè)地址也有一個(gè)規(guī)律<a href="http://news.qq.com/newsgn/zhxw/shizhengxinwen_6.htm"> 變化的是頁(yè)碼數(shù)字,變化的用參數(shù)來(lái)替代,其他是不變化的,那么我們只要獲取變化
的就可以了。
原理就是這樣,在我遇到的分頁(yè)都是有這樣的規(guī)律的,源代碼肯定是不一樣的,但是規(guī)律是一樣的,大家要會(huì)舉一反三,不要死腦筋。這里告訴的是方法。。。
寫到采集器里面如下圖:
我們可以通過上圖“最多獲取分頁(yè)數(shù)”來(lái)設(shè)置要獲取多少頁(yè),0為全部獲取。
右側(cè)“組合生成列表頁(yè)分頁(yè)”我們做了設(shè)置的,上圖的“自動(dòng)識(shí)別分頁(yè)”就不需要勾選了。最好不要勾選,有時(shí)候會(huì)出錯(cuò)。
我上面的截圖都是勾選上的,默認(rèn)是勾選的,設(shè)置好規(guī)則了,就把這個(gè)勾選取消。