對于設(shè)置列表分頁,下圖設(shè)置是最常見也是最常用的。
現(xiàn)在教大家另外一個獲取分頁的辦法,就是通過列表頁分頁采集獲取功能來自動獲取分頁。
使用這個功能,起始頁就只需要把首頁地址添加進(jìn)去就可以了如下圖:
分頁設(shè)置是在 “多級網(wǎng)址獲取”里的“列表分頁獲取”如下圖:
上圖“從該區(qū)域中提取列表分頁網(wǎng)址”這里就是找到源代碼里面分頁開始和結(jié)束,中間包含的地址就分頁地址。
對于那種分頁全部列出來的,設(shè)置好這一步就可以了,但是很多情況下分頁都不是完全列出來的,中間會有省略號代替如下圖:
現(xiàn)在針對全部列出,和不是全部列出這2種情況,做一個都適用的設(shè)置,我一直都是用這種方式獲取,幾乎解決所有的網(wǎng)站。
我們重要的是要找到當(dāng)前頁源代碼的特點。我是用http://news.qq.com/newsgn/zhxw/shizhengxinwen.htm 這個列表頁來做說明的。
我們看下第一頁分頁源代碼的情況如下圖:
再看下第二頁源代碼的情況如下圖:
然后我們不再一頁一頁看隨便看一頁,查看源代碼我這里選第五頁如下圖:
通過紅色標(biāo)注,大家看到規(guī)律了沒有?當(dāng)前頁都是<strong></strong>這個代碼后面緊接著一個<a >就是下一頁地址。
也就是說我們是要通過當(dāng)前頁獲取下一頁,這樣一級一級的向下獲取,直至把所有分頁獲取到。
那么放到采集器里面的表示就是從<div class="pageNav">開始,中間我不管是什么用(*)表示,然后遇到第一個<strong>(*)strong>,因為頁碼也是變化的所以中間我用(*)表示變化的。
然后到再到第一次出現(xiàn)</a> 做為結(jié)束,中間包含的就是下一頁地址。
而且分頁地址也有一個規(guī)律<a href="http://news.qq.com/newsgn/zhxw/shizhengxinwen_6.htm"> 變化的是頁碼數(shù)字,變化的用參數(shù)來替代,其他是不變化的,那么我們只要獲取變化
的就可以了。
原理就是這樣,在我遇到的分頁都是有這樣的規(guī)律的,源代碼肯定是不一樣的,但是規(guī)律是一樣的,大家要會舉一反三,不要死腦筋。這里告訴的是方法。。!
寫到采集器里面如下圖:
我們可以通過上圖“最多獲取分頁數(shù)”來設(shè)置要獲取多少頁,0為全部獲取。
右側(cè)“組合生成列表頁分頁”我們做了設(shè)置的,上圖的“自動識別分頁”就不需要勾選了。最好不要勾選,有時候會出錯。
我上面的截圖都是勾選上的,默認(rèn)是勾選的,設(shè)置好規(guī)則了,就把這個勾選取消。