搜索引擎不喜歡復(fù)制的東西更不喜歡數(shù)據(jù)采集,但有時候遇到一些情況,比如網(wǎng)站由于改版、換數(shù)據(jù)庫、換管理程序等,需要把網(wǎng)絡(luò)數(shù)據(jù)采集或網(wǎng)站備份。提醒各位:
①做任何操作之前一定要備份數(shù)據(jù)庫并打包原站;
②對排名較好的網(wǎng)站不建議對網(wǎng)站管理系統(tǒng)進(jìn)行這樣大的修改;
③對新站不建議采集別人網(wǎng)站的信息,會降低新站特殊權(quán)重給分。
前段時間做一個老網(wǎng)站的改版方案,由于管理系統(tǒng)和數(shù)據(jù)庫都更換,決定采用對原網(wǎng)站數(shù)據(jù)采集的解決方案。新手進(jìn)行網(wǎng)站改版需要掌握的建站知識和SEO知識是非常多的,這些經(jīng)驗?zāi)脕砀蠹曳窒怼?/p>
網(wǎng)站基本情況
這個站原來有排名,收錄量也比較多,優(yōu)化也比較好,制作風(fēng)格和吖七很相似,代碼簡潔,前端大氣,標(biāo)簽運用還可以,只是網(wǎng)站優(yōu)化方法帶點黑帽。用的asp程序后臺,數(shù)據(jù)庫是access,要換成php,數(shù)據(jù)庫是mysql。
網(wǎng)站改版用的軟件工具
-EditPlus或DreamWear(代碼編輯器); -APMServ(本地ASP、PHP環(huán)境); -Fiddler Web漢化版(web數(shù)據(jù)抓包); -火車頭(LocoySpider)采集7.6(破解穩(wěn)定版、數(shù)據(jù)采集); -DedeCMS V5.7(后臺內(nèi)容管理程序); -其他輔助工具。
網(wǎng)站借助火車頭采集改版詳細(xì)步驟
1.本地環(huán)境搭建、安裝DedeCMS、安裝Fiddler Web抓包工具、安裝火車頭采集7.6等軟件
安裝方法很簡單,相關(guān)文章《本地安裝PHP環(huán)境 測試織夢CMS》,《如何安裝dedecms織夢詳解》。
提供部分軟件下載鏈接:http://pan.baidu.com/s/1qXSaMOs 密碼:3n7e
2.火車頭設(shè)置(重點內(nèi)容)
官方說明較簡單,新手采集網(wǎng)站數(shù)據(jù)一定要多看多實踐。打開火車頭采集工具,新建一個任務(wù)和分組。
第一步:采集網(wǎng)址規(guī)則
①起始地址。即提取分頁規(guī)則,按照下圖依次:點擊添加-點擊批量/多頁-輸入地址格式,比如我要采集的地址列表有,即是:
http://www.123.com/case.asp?page=1&SmallClass=1 http://www.123.com/case.asp?page=2&SmallClass=1 http://www.123.com/case.asp?page=3&SmallClass=1
看得出變量是1,2,3...采用通配符寫法就是
http://www.123.com/case.asp?page=(*)&SmallClass=1
選擇等差數(shù)列的項數(shù)為所要采集的列表數(shù)量,根據(jù)實際情況寫。依次點擊添加
再依次點擊添加-完成-關(guān)閉。
②多級網(wǎng)址獲取。 即獲取某個分頁的URL地址列表。在任意一個目標(biāo)列表中,鼠標(biāo)右鍵-查看源代碼,一般來說有基礎(chǔ)的同學(xué)就不必多說了,實在不懂的網(wǎng)上資源也多。找到特征代碼片段,按下圖寫好,保存即可。
點擊測試網(wǎng)址采集,確保列表采集規(guī)則正確后,進(jìn)行第二步。