在中國的互聯(lián)網(wǎng)上, 迄今為止發(fā)現(xiàn)至少有千萬級的站點(diǎn)。這些站點(diǎn)形態(tài)各異,它們的目的/內(nèi)容/用戶群體/大小/年齡/領(lǐng)域/質(zhì)量…各不相同。 如果對這些站點(diǎn),從某個(gè)(些)角度作一定劃分,對于我們了解整個(gè)互聯(lián)網(wǎng)從而優(yōu)化搜索引擎的抓取、排序、展現(xiàn)等策略,是有幫助的。
站點(diǎn)聚合定義隨問題的不同方法也不同,很多自然屬性都是我們關(guān)注的重點(diǎn),站點(diǎn)之間的關(guān)系錯(cuò)綜復(fù)雜,各種別名/替換/穩(wěn)定性/作弊站群等等都會影響到站點(diǎn)的收錄,如何能從這復(fù)雜交錯(cuò)的網(wǎng)絡(luò)中理出我們需要的還有很多困難需要克服,明確的是用戶需要的也是我們需要的。
選取什么角度作站點(diǎn)劃分?其實(shí)不是一個(gè)簡單的問題,因?yàn)閺牟煌嵌瓤紤]站點(diǎn)分類結(jié)果是很不一樣的,而且對于應(yīng)用的效果差異也會很大。其次,就算選擇了合適的角度,要劃分到合適的層次/粒度,也是一件困難的事情。選擇何種關(guān)系作為站點(diǎn)之間的邊以構(gòu)建圖也需要深入思考。
有一類站點(diǎn),并不為多數(shù)網(wǎng)民所知,獲得的訪問也很少;但是它卻很重要,這主要表現(xiàn)在一些“機(jī)構(gòu)站”。包括政府/學(xué)校/組織/公司/地方性站點(diǎn)。它們非常的可信,對網(wǎng)絡(luò)檢索資源的貢獻(xiàn)也很大,在很多時(shí)候是很權(quán)威的。
隨著web2.0的興起,網(wǎng)民在網(wǎng)絡(luò)上建立起自己的交流/表達(dá)平臺變得容易和普遍,最重要的是blog。有很多blog對互聯(lián)網(wǎng)貢獻(xiàn)了很多重要的檢索資源,往往比專業(yè)的網(wǎng)站編輯團(tuán)隊(duì)更快更新地發(fā)表某些網(wǎng)民感興趣的話題。對于持續(xù)貢獻(xiàn)優(yōu)質(zhì)內(nèi)容的blog我們是非常重視的。
【 微信掃一掃 】