信息動態

網站設計是技術與創意的完美融合!

技術資訊

什么是網站被鏡像了?

2019-08-01 12:30:52

涉及到網站設計就不得不提一下網站惡意鏡像了。鏡像我們的網站就像是一面鏡子一樣,自己的網站有什么東西,對方網站就會同步出現什么東西,比如你自己網站新增了一篇新聞后,只要有人訪問了該篇新聞,那么鏡像你的網站也會同步更新上去了該篇新聞,這采集網站還不太一樣,是不是很討厭吧。

什么是惡意鏡像的網站? 

鏡像網站指的是和你的網站基本一樣、并且實時同步的其它網站。就像照鏡子一樣,所以名為鏡像。 

有的鏡像網站是沒有惡意的,很可能是你自己設置的,為了方便用戶能從多個域名訪問網站,被封了一個,還有其它的域名。比如著名的草榴社區,好像就有很多鏡像可以訪問。 

有的鏡像,也就是這里討論的鏡像,是不懷好意的,通常是別人設置的,要么為了負面SEO你的網站,要么為了利用你的內容獲得排名,然后把用戶轉向到敏感、非法內容網站上去。 

網上有的文章把采集和鏡像混在一起。雖然表現形式差不多,但嚴格來說,采集和鏡像實現方法、表現形式是有區別的。 

采集的網站一般是提前抓取別人網站的內容,放入自己數據庫,再用程序調用到頁面上。被采集網站有新內容時,采集網站并不能實時同步更新,要再采集之后才能出現。一旦被采集,內容已經在對方數據庫里了,從技術上是無法阻止采集網站顯示這些內容的。這篇帖子說的不是這種。 

鏡像網站并不事先抓取內容,而是有人訪問網站時,實時從被鏡像的網站調取內容,做些處理(替換URL、文字,加文字、加JS等),然后實時顯示。被鏡像的網站有任何更新,鏡像網站是實時同步的。 

網上有賣用于鏡像網站的小偷程序的。小偷程序通常也可以用來做采集。為了不給他們做宣傳,就不提名字了。從他們的官網摘取幾條程序功能,有助于理解后面的內容: 

全自動分析,內外鏈接自動轉換、圖片地址、css、js,自動分析CSS內的圖片 

內置強大替換和過濾功能,標簽過濾、站內外過濾、字符串替換、等等 

偽原創,近義詞替換有利于seo(什么是網站SEO) 

增加URL路由,實現全站URL變換,個性化本站URL地址 

超級模板增加移動模板、自定義欄目功能 

增加自動獲取301、302重定向的采集,解決跳WWW,跳https采集 

代理IP、偽造IP、隨機IP、偽造user-agent、偽造referer來路、自定義cookie,以便應對防采集措施 

其實我是挺迷惑,網信辦為什么不責令關閉賣小偷程序的網站,這種網站才是真正該關的,而不是另外一些網站。 

被鏡像有什么危險 

從SEO角度看,權重不高的小站、新站,被鏡像意味著有其它網站和你的網站內容基本一樣,搜索引擎有可能認為你的網站不是原版,鏡像網站才是,所以把排名、流量給了鏡像網站。 

對有一定歷史、權重的網站,鏡像網站取代原版網站的可能性微乎其微。但從心情角度考慮,被別人鏡像,內容被別人偷走,即使沒有其它明顯后果,也還是挺煩人的一件事。 

另一個煩人的事是,鏡像網站一般來說并不是要和你提供同樣的產品或服務,而是把用戶轉到賭博、色情等服務上去。有的是通過JS把賭博、色情內容顯示給用戶,有的直接把用戶轉向到另外的網站上去。 

怎樣發現自己網站被鏡像了 

有時候注意到被鏡像了是因為自己網站排名下降,懷疑有人負面SEO。有時候是搜索品牌名稱,看到鏡像網站。已經知道自己被鏡像了好辦,直接看下面怎么處理部分。 

很多站長則完全不知道自己網站是否被鏡像了。有幾個我常用的檢查方法。 

一是百度統計后臺: 

受訪域名部分列出了使用相同百度統計代碼的域名。其中出現快照、百度/谷歌翻譯等是正常的,但出現一些奇奇怪怪的域名就要查看一下了,比如上圖里的第5、7、8個,訪問一下就知道都是鏡像SEO每天一帖,引誘用戶賭博的網站,然后站長把SEO每天一帖的統計代碼也照抄過去了。 

看看上面列出的小偷出現功能就知道,其實統計代碼很容易替換或刪除的。所以在受訪域名只能看到一小部分鏡像網站。 

第二是搜索網站的特征句子。最容易想到的是網站品牌名稱、首頁標題等,確實可以發現一些鏡像網站。但如前所述,品牌名絕大多數是會被替換的,所以我更喜歡搜索一些頁面上的特征句子,比如本博客最上面的副標題:Zac的SEO博客,堅持12年,優化成為生活。搜索一下就會看到: 

看來我的博客很容易吸引菠菜啊。 

一般我不搜索帖子里的句子,因為那會返回大量轉載、抄襲的頁面,不是鏡像的。 

從上圖可以看到,鏡像網站自動把title及正文中的品牌詞或指定關鍵詞替換了,訪問這類網站效果常常是這樣的: 

上圖鏡像網站沒有轉向,也沒有用JS顯示大量菠菜內容,而是直接在正文中插入菠菜內容和鏈接。有的鏡像網站用JS在頁面上半部分顯示大量內容,就像在典型賭博網站看到的一樣,拉到下面才能看到鏡像的內容。 

為了搜得更全,還經常需要多搜索其它地方的特征文字。比如搜索頁腳的聲明中的一句:“明明很久一貼,為什么號稱“看到另一些鏡像網站: 

201806192118_656.jpg

為什么搜索句子的一半,不是搜索“明明很久一貼,為什么號稱SEO每天一帖“呢?還是因為品牌詞或特征關鍵詞經常是會被替換的,比如這樣: 

201806194111_137.jpg

一般我是用Google做這種搜索,因為Google什么亂七八糟的都收錄。 

網站被鏡像了怎么辦? 

首先,一些網上提到的解決辦法并沒有什么用。 

比如有的說頁面上的鏈接用絕對地址有幫助,其實小偷程序都會自動替換網址,用相對地址還是絕對地址沒什么差別。 

還有的說頁面上加上網站鏈接、網站名稱、版權聲明之類的,搜索引擎會識別哪個是正版。但鏡像小偷程序連鏈接帶文字都可以全部自動替換,這么做并沒有用。 

發現鏡像網站后的處理原則就是讓鏡像網站不能在鏡像域名上顯示你的內容。考慮到鏡像網站是要實時訪問和調用被鏡像的頁面的,所以可以考慮幾個方法。 

比如用JS檢測一下正在被打開的頁面是不是在自己的域名上,是的話正常顯示,不是的話(域名是鏡像網站時)強迫轉向到自己域名: 

if (window.location.hostname !== ‘www.hrngvp.live’){ 

window.top.location.href = ‘http://www.hrngvp.live/’; 

(聲明:我對程序不熟,代碼只是簡單舉例,具體怎么寫,請問你的程序員。) 

不過這種方法只對用戶有效,搜索引擎不執行JS,還是會抓取到鏡像內容。也可以用PHP寫腳本判斷和轉向。 

有時候由于種種原因,程序不起作用。另一個直接的方法是屏蔽鏡像網站來訪問的IP地址。先查一下鏡像網站服務器IP:

201806198168_906.jpg 

把對方主機IP先屏蔽了。不過鏡像網站來實時抓取用的IP大部分情況下不是域名主機IP,可能是CDN,可能是偽造IP,也可能是多IP的服務器。要發現必須屏蔽的IP,需要查看網站原始日志(如何查看網站訪問日志)。我的一個小竅門是,訪問鏡像網站上一個很少人會訪問的頁面,比如翻頁第70頁,然后馬上查看日志,這個頁面被訪問的IP就是應該屏蔽的IP: 

屏蔽了這個IP,再訪問鏡像網站就變成403錯誤了(什么是403錯誤頁面): 

201806194695_783.jpg

不知道頁腳的友情鏈接是鏡像網站自己加的?還是賣程序的人強制加的? 

鏡像網站經常是會偽造或實時輪換IP地址的,如果屏蔽一個IP網站還能訪問,就再訪問翻頁69頁、68頁等等,找到更多IP。屏蔽也可以屏蔽IP段。我的經驗是,通常鏡像網站不會使用超過10個IP地址。 

當然也可以寫個簡單的腳本放自己網站上,比如www.hrngvp.live/mirror.php: 

<?php 

echo $_SERVER[‘REMOTE_ADDR’]; 

?> 

腳本唯一功能就是顯示訪問的IP,然后自己訪問一下小偷鏡像網站的腳本網址,也就是www_bloody-thief_com/mirror.php,頁面上就直接顯示鏡像網站訪問你服務器時的IP了。如果鏡像網站替換了URL,這個方法就不好用了。無論怎樣,日志中是一定有的。 

另外,發現鏡像網站,可以向百度、域名注冊商、主機服務商投訴,要求關閉網站或刪除頁面。投訴是否管用就是另一回事了,還是先做好IP屏蔽和URL檢測。 

0532-85810878 473587358 [email protected]
大乐透开奖规则和奖金