織夢后臺自帶一個采集工具,但是大家貌似都很陌生,可能因為不實用吧,也可能市場上有更好的工具來替代,上一篇教程最詳細火車頭數(shù)據(jù)采集系統(tǒng)DedeCMS發(fā)布文章攻略,我們也介紹了今天我們來介紹下織夢后臺自帶采集功能使用方法,dedecms自帶了文章和圖片采集功能,對于不熟悉的新手建站,采集規(guī)則配置起來很麻煩,經(jīng)常在采集時出錯,或者亂碼,現(xiàn)在就向朋友介紹dedecms的采集功能。
一、進入采集節(jié)點管理界面,在后臺管理界面的主菜單中單擊“采集”,然后單擊“采集節(jié)點管理”,即可進入采集節(jié)點管理界面。
二、在采集節(jié)點管理界面中,單擊左下角的“增加新節(jié)點”或者右上角的“添加新節(jié)點”如圖,都可進入“選擇內(nèi)容模型”界面,如圖所示,

三、設(shè)置節(jié)點基本信息
四、目標(biāo)頁面編碼:設(shè)定被采集目標(biāo)頁的編碼格式,有GB2312、UTF8和BIG5三種?赏ㄟ^在被采集目標(biāo)頁面上,單擊右鍵后選擇“查看源文件”來獲取。

五、其等號后面的代碼就是所需的“編碼格式”,這里是“gb2312”。
“區(qū)域匹配模式”:設(shè)定如何匹配所需采集的內(nèi)容部分,可采用字符串或者正則表達式。系統(tǒng)默認的模式是字符串。如果比較了解正則表達式的朋友,可以在這里選擇正則表達式的模式。
“內(nèi)容導(dǎo)入順序”:指定文章列表導(dǎo)入時候的順序,可以選擇“與目標(biāo)站一致”或“與目標(biāo)站相反”。
“防盜鏈模式”:針對被采集的目標(biāo)站點有無刷新限制。一開始很難判斷出來,需要測試后才能知道。如果有的話,這里需要設(shè)置一下“資源下載超時時間”。
“引用網(wǎng)址”:填入任何一個即將被采集的文章內(nèi)容頁面的網(wǎng)址。
在已打開的文章列表頁中,單擊第一篇文章的
六、此時在瀏覽器的URL地址欄中顯示的網(wǎng)址,即為需要填寫在“引用網(wǎng)址”處的網(wǎng)址,如(圖)所示
七、到這里,“節(jié)點基本信息”就設(shè)置完成了。最后結(jié)果,如(圖)所示,
八、檢查無誤后,進入下一步設(shè)置。設(shè)置列表網(wǎng)址獲取規(guī)則
這里是設(shè)置被采集的文章列表頁的匹配規(guī)則。如果被采集的文章列表頁有一定的規(guī)律,可選擇“批量生成列表網(wǎng)址”;如果被采集的文章列表頁完全沒有規(guī)律可循,那么可選擇“手工指定列表網(wǎng)址”;如果被采集的站點提供了RSS,則可以選擇“從RSS中獲取”。對于特殊情況,例如:部分列表頁有規(guī)律,而其余的又沒有規(guī)律,則可在“匹配網(wǎng)址”中填上有規(guī)律的部分,然后把沒有規(guī)律的部分填寫在“手動指定網(wǎng)址”。