如何避免網站page的頁面被重復抓取
觀察分析網站的日志,發(fā)現(xiàn)網站page的頁面被蜘蛛重復抓取很多,這樣子對網站的優(yōu)化并不是很好。那么我們要如何避免網站頁面被蜘蛛重復的抓取呢?重慶網頁建設
一、通過robots文件來把這個頁面來屏蔽掉,具體做法語法格式:
Disallow: /page/ #限制抓取Wordpress分頁如查你的網站有需要也可以把下面的語句一并寫上,避免出現(xiàn)過多的重復頁面。
* Disallow: /category/*/page/* #限制抓取分類的分頁 * Disallow:/tag/ #限制抓取標簽頁面 * Disallow: */trackback/ #限制抓取Trackback內容
* Disallow:/category/* #限制抓取所有分類列表 什么是蜘蛛,也叫爬蟲,其實是一段程序。這個程序的功能是,沿著你的網站的URL一層層的讀取一些信息,做簡單處理后,然后返饋給后臺服務器進行集中處理。我們必需了解蜘蛛的喜好,對網站優(yōu)化才能做到更好。接下來我們談談蜘蛛的工作過程。
二、蜘蛛遇到動態(tài)頁面
蜘蛛在處理**頁信息是面臨的難題。**頁,是指由程序自動生成的頁面。現(xiàn)在互聯(lián)網發(fā)達程序開發(fā)腳本語言越來越多,自然開發(fā)出來的**頁類型也越來越多,如jsp、asp、php等等一些語言。蜘蛛很難處理這些腳本語言生成的網頁。優(yōu)化人員在優(yōu)化的時候,總是強調盡量不要采用JS代碼,蜘蛛要完善處理這些語言,需要有自己的腳本程序。在進行網站優(yōu)化,減少一些不必要的腳本代碼,以便蜘蛛爬行抓取,少導致page頁面的重復抓取!
三、蜘蛛的時間
網站的內容經常變化的,不是更新就是改模板。蜘蛛也是不斷地更新和抓取網頁的內容,蜘蛛的開發(fā)者會為爬蟲設定一個更新周期,讓其按照指定的時間去掃描網站,查看對比出哪些頁面是需要進行更新工作的,諸如:主頁的標題是否有更改,哪些頁面是網站新增頁面,哪些頁面是已經過期失效的死鏈接等等。一個功能強太的搜索引擎的更新周期是不斷優(yōu)化的,因為搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。不過如果更新周期過長,便會使搜索引擎的搜索精確性和完整性降低,會有一些新生成的網頁搜索不到;若更新周期太過于短,則技術實現(xiàn)難度加大,而且會對帶寬、服務器的資源造成浪費。
四、蜘蛛不重復抓取策略
網站的網頁數(shù)量非常大,蜘蛛進行抓取是一個很大的工程,網頁的抓取需要費非常多線路帶寬、硬件資源、時間資源等等。如果經常對同一個網頁重復抓取不但會大大的降低了系統(tǒng)的效率,還造成精確度不高等問題
所謂“病毒廣告”,就是沒有被“投放”的廣告,依靠觀眾自己去傳播。投放的意思是花錢購買廣告位,或者放在視頻網站首頁,使觀眾被迫看到它。
企業(yè)網站建設解決方案 營銷型網站建設解決方案 行業(yè)門戶網站建設解決方案 外貿網站解建設決方案 品牌形象網站建設解決方案 購物商城網站建設解決方案 政府網站建設解決方案 手機網站建設解決方案 教育培訓網站建設解決方案 珠寶高端奢飾品網站建設解決方案 房地產、地產項目網站建設解決方案 集團、上市企業(yè)網站建設解決方案 數(shù)碼、電子產品網站建設解決方案 美容、化妝品行業(yè)網站建設解決方案
10年專業(yè)互聯(lián)網服務經驗 重慶最專業(yè)網站團隊 資深行業(yè)分析策劃 B2C營銷型網站建設領先者 最前沿視覺設計、研發(fā)能力 時刻最新技術領先研發(fā)能力 具有完備的項目管理 完善的售后服務體系 深厚的網絡運營經驗
中技互聯(lián)一直秉承專業(yè)、誠信、服務、進取的價值觀,堅持優(yōu)秀的商業(yè)道德,以用戶最終價值為導向,向用戶提供優(yōu)質產品和優(yōu)質服務,從而贏得了用戶的信賴。始終以不懈的努力、更高的目標來要求自己。
主營業(yè)務:網站建設 | 重慶網站建設 | 重慶網站設計 | 重慶網站制作 | 重慶網頁設計 | 重慶網站開發(fā)