解讀DuckDuckGo:另一個搜寻引擎的故事

2018年有很多故事可以寫,但是到最後一天的時候,讓我選一件事來寫,我想寫的是duckduckgo這個搜寻引擎。選擇它是有原因的,這個搜寻引擎創始於2008年,正好是第10個年頭。

即使在今天,聽說過這個搜寻引擎的人也不多。上個月(2018.11),它的每日搜寻量第一次超過了3000萬次,很多科技媒體用非常小的版麵報道過這件事。中文也有報道,基本上就是“一句話新聞”這樣的待遇,沒人多想什麽。這不意外,每天3000萬搜寻聽起來不小,但是放在整個搜寻市場可以算的上微不足道。做為對比,Google早就不再發布每天準確的搜寻量,但根據前幾年發布過的數字和增長率,大致能推算出來,一般被認為是4萬~8萬次搜寻每秒。即使用最低預測,要超過duckduckgo一整天搜寻量,Google隻需花750秒==12.5分鍾。

在搜寻引擎市場上,每天3000萬搜寻量太小了,比被所有人都認為早就完蛋了的Yahoo搜寻還少好幾倍。但是這樣一對比,這個在搜寻引擎市場隻占0.x%份額的產品竟然存活了10年,這就是一個有意思的故事。再考慮它不屬於任何大公司,是個完全獨立的搜寻引擎,那就更有意思了。它是如何開始的,如何存活下來的,誰是它的用戶?

10年已經足夠長了,2008年,蘋果剛剛發布iPhone 3G,到接近年末,Android的第一個手機,G1到年底才勉強上市,諾基亞仍然占統治地位,移動才剛剛有了一點影子。2018年再扭頭看回去,簡直是個完全不同的時代。但是在那個時代,搜寻引擎市場已經成熟了,做一個新的通用搜寻引擎,聽起來已經像個笑話了。要知道,搜寻引擎市場的最大巨頭Google,已經成立了10年,就算是其他語言的搜寻,中文區最大的2000年創立,俄語區最大的yandex比google還早,90年代初就存在了。即使是最年輕的中文搜寻引擎搜狗,也成立於更早的2004年,2006年搜狗已經靠著拚音輸入法有了自己的一席之地。到了2008年,沒人再想挑戰這個市場了。

2008年的主流看法是:做一個通用搜寻引擎是不可能了,一方麵是競爭對手過於強大,全是上市公司,都非常有錢,都有忠實用戶或者各種壁壘造成的基本壟斷,另外一方麵是搜寻引擎係統耗資巨大,通常認為要融到一筆不小的投資才能開始。2007年後半年,金融市場就籠罩在“金融危機快來了”的恐懼中,2008年下半年金融危機終於爆發。在那個市場情況下,更沒有投資人會投一大筆錢在這種“一看就沒戲”的項目上。

不過世界上總有一些例外。Duckduckgo就是這種例外的產物。(為了縮短點篇幅下麵使用其官方簡稱ddg)

Gabriel Weinberg並不是新兵。在開始ddg項目之前,他開過不少家公司,做了好幾個產品,其中一個算是成功,以1000萬美金的價格被另外一家公司並購,其他的都失敗了。賣掉公司之後,他希望下一個產品做一個自己喜歡的方向,可以一直做下去。什麽是自己喜歡的呢?他自己也不知道,於是幹脆一個領域一個領域做起來試試看,不喜歡就放棄。就這樣又試了將近兩年,最終他。

此時已經到了2008年,如前所述,那絕對不是一個做搜寻引擎的好時代。我清楚的知道這些,因為當時我也在做搜寻引擎,隻不過我們是在做一個搜寻雲服務係統,不是通用搜寻。即使這樣也相當不容易,這是另外的故事,有機會再講。

Gabriel決定一個人開始做一個搜寻引擎。按照Google這種“索引全球信息”的模式做,那當然不可能,按照那種模式,他自己賣掉上家公司的1000萬美元都扔進去也未必夠啟動項目。於是他決定從一個簡單的模式開始,即利用提供搜寻API的產品,聚合他們的站內搜寻結果,重新排序呈現到一個頁麵上。嚴格來說這算不上一個真正的搜寻引擎,這種做法局限性很大,除了內容源有限之外,從每個服務API拿回數據拚接頁麵的過程很慢,產品體驗也不好。不過它總算是個開始,之後他開始用一係列開源軟件搭建自己的爬蟲係統,建立自己的索引,不再單純依靠別人的搜寻結果拚接。這個過程並不是那麽複雜,開源工具Apache Solr就能很好的滿足需求。尤其是ddg隻麵向英文市場,沒有搜寻分詞的困難,又隻麵對有限的搜寻源,不會遇到索引量大規模膨脹的問題,總體投資可控。這時候的ddg像是一個簡單開源軟件拚接起來的工具,它需要很多人力去精心調配各種結果,收集各種搜寻源,至於搜寻技術本身,在這個階段完全不做任何修改的開源軟件都足夠用了。

除了搜寻頁麵,ddg還在力推Instant Answers這個概念,它指的是在搜寻結果頁麵上直接顯示答案。Google早在2007年就開始推廣搜寻產品onebox,開始在標準搜寻結果頁麵上展示一些專有內容,比如電影,書籍,購物等等。今天這些都已經是大家都熟知的搜寻特性了,但是在10年前,這仍然是一個新概念。如何準確的命中用戶搜寻結果,在onebox中展示,這需要複雜的算法和大量曆史搜寻數據做為基礎,無論在數據積累還是技術上,這都是一個挑戰。ddg的做法相比Google有點可笑,它幹脆抓了一堆常用的內容和關鍵詞,直接存到了數據庫裏麵。這種解決方案和他們處理搜寻本身一樣,它不能稱之為一個搜寻引擎,但是勉強能用。

2008年9月,ddg正式發布。做為當時第一批用戶的我,用過之後的感受是:“這玩意也能用?”然後默默關掉了窗口。盡管在hacker news的討論上,創始人Gabriel一次又一次的表示“你堅持用一周,肯定會喜歡它”。我不知道那個時候什麽人會堅持用一周,至少我是沒能堅持下去。

不過Gabriel倒是不在乎大家沒能堅持用下去,他仍然繼續優化他的產品。盡管他走的和Google是完全相反的道路。Google的做法是首先訂好算法和框架,然後盡可能讓機器去幹活。比如,Google一開始就確定了根據鏈接關係來確定頁麵權重的模式,設計好Pagerank算法,再實現算法,之後就是程序按照算法順著頁麵之間的鏈接關係一層層把內容抓回來,建立索引,用戶輸入關鍵詞,就在索引中命中關鍵詞,按照Pagerank算法排序,把結果呈現給用戶即可。這個過程中人是不參與的,人的工作集中在優化算法和修補漏洞上。Google始終在驕傲於“算法決定搜寻結果,人不幹涉它”。

ddg走的是完全相反的道路,人挑選內容源,人決定哪些更重要,應該放在數據庫裏,甚至社區可以貢獻內容,貢獻Instant Answers結果…一切都是人在做決策,ddg最多的代碼是perl和javascript完成的,這足以說明了他們幾乎不去觸碰開源的搜寻係統核心部分,隻是用一係列的腳本把他們認為重要的結果塞到索引庫裏,以及把一些他們覺得是spam的內容農場從索引庫裏挪出去。畢竟,ddg也從來沒有“索引全球信息”這麽宏大的夢想。

2009年,ddg提出了一個重要的概念,叫做“尊重隱私的搜寻”。更技術的表達是“不追蹤用戶行為,不存儲用戶搜寻曆史”,這個概念在2009年聽起來根本不重要,那還是一個大家覺得“我熱愛互聯網,我願意出賣隱私”的時代。但之後的這些年裏麵,世界變得越來越快,到現在它已經變成ddg的核心競爭力之一。

到2010年年末,ddg的每日搜寻量始終在4萬、5萬這個數量級別波動,而2009年,Google的每日搜寻量已經超過了10億次。2011年1月,Gabriel在舊金山租了一個月的高速公路廣告牌,隻有一塊。上麵寫著“Google追蹤你,我們不會”。廣告牌引發了一輪獵奇的媒體報道,廣告效果明顯反映在搜寻量上,使得ddg每日搜寻量翻倍,開始超過了10萬。在那個時候,科技行業從業者中一部分人已經開始思考Google的隱私策略存在的問題,在舊金山這個科技重鎮的這塊廣告牌,影響了這些人。

我在這一輪媒體報道之後,重新開始嚐試ddg。這次它給我的印象不錯,我常用的搜寻,比如github/stackoverflow/wikipedia之類的站點已經被索引的比較完全了,盡管它的搜寻範圍仍然限於有限站點,但已經可以解決一部分問題。這得益於Gabriel在前麵2年中的艱苦工作,到這個時候,這還是一家一個人的公司,隻有創始人Gabriel一個人。辦公室和服務器仍然在Gabriel家的地下室裏。

我在這個時候開始把它設置成瀏覽器的默認搜寻引擎,我知道它不好用,但是我希望能給他貢獻一點點流量,並且希望這點流量能幫助這個產品存在下去,從而可以存在一個選擇。這種可替代選擇不必在功能上完全擊敗競爭對手,隻要它能滿足超過及格線的使用需求,就比沒有好很多。

2011年的年底,堅持不融資的Gabriel終於去給ddg融了第一筆天使投資,雇了第一個員工,在ddg發展的這10年裏,這應該是唯一一次融資。不過ddg的真正快速增長的時代,是在之後的兩年才逐漸開始的。2013年,NSA的外包雇員斯諾登逃到香港,對全世界公布了美國政府正在監控互聯網的棱鏡計劃。人們終於開始第一次有證據的意識到,隱私問題不再是無關緊要的。同樣的問題,用隱私換更好的搜寻質量,在2008年,大部分人會回答“沒問題”,但到了斯諾登事件之後,至少有一小部分人會回答“不能接受”。ddg符合了他們的理念,如何才能不泄漏隱私?隻有完全不存儲不必要的隱私數據才能做到。到5年之後的今天,歐盟的GDPR隱私數據保護法已經生效,更多的人認同這個觀點。現在逃離Google/Facebook逐漸成了新時尚,ddg成了最好的搜寻引擎替代產品之一,也逐漸被各類瀏覽器內置成默認搜寻引擎之一。

到今天為止,這仍然不是一個“創業企業成功”的故事。到現在ddg隻有50個員工,在搜寻引擎市場擁有幾乎可以忽略的市場份額,但是它能存活到今天,本身就是一件有意義的事情。

Gabriel在不打算融資的3年半養成的習慣仍然主導著這家公司,並且使得它生存的更頑強。一直到今天,ddg的主要服務器已經搬到了amazon雲服務上,但是還有不少組件仍然躺在Gabriel的地下室裏——那些對即時響應要求不高的服務,比如抓取某些數據裝進數據庫,這樣的任務在自家地下室進行,仍然比使用雲服務便宜的多。公司雖然有50個人,但是他們都分布在世界各地,他們在一張地圖上標記出了所有人的位置,幾乎沒有兩個人在同一個城市,所有人都是遠程辦公。這大概是把遠程辦公貫徹最徹底的互聯網公司。

它所謂的“總部”,也隻是在賓夕法尼亞州的一個小鎮主街上的一棟普通房子,並且還是和另外一家公司共享的。按照我的經驗,每月租金不會超過1000美金。如果想要個直觀點的印象,可以看看街景照片:

除了ddg之外,我猜這個鎮上和“科技”最接近的公司,應該是修理手機和電腦的店。至於為什麽選中它?我從地圖上看,這是距離創始人Gabriel家最近的小鎮,大概有5英裏遠吧。

這些和其他科技公司完全不同的離經叛道的舉措是有收獲的,它使得ddg始終是一家盈利的公司。盈利來源很簡單,他們隻靠關鍵詞廣告即可獲得不錯的收入。他們沒有公布過收入的具體數字,但是推測應該算的上有錢的公司。這些盈利除了能養活幾十個員工,支付各種雲服務開支之外,ddg每年還對各種開源項目和維護互聯網自由的相關組織捐款,2018年他們的總捐款額高達50萬美金。Ddg成功把自己放在了一個微妙的位置,它有一定的市場占有率,有越來越多的忠誠用戶,但是它堅定的隱私策略使得這個市場中的大玩家不可能通過競爭消滅它,也不可能跟隨它,更不可能收購它。這個奇妙的位置使得它可以按照最初的信念一直生存下去,不需要融資,不需要為了增長率出賣原則,不需要上市。事情似乎重新回到了“你隻需要做好產品,用戶自然會來”這個遠古時代的路線上。對於2018年正在發生的,比如燒錢無數的共享單車大戰,他們好像發生在兩個平行世界裏。

在互聯網已經變成了以資本遊戲為主的時代,ddg的存在給了很多人勇氣,使得他們有機會去做一些不同的事情,一些理智看起來毫無勝算的事情。回顧這10年的曆史,最艱難的應該是創始人Gabriel獨自扛下來的最早的3年多。那時候的他就像沿著一條大霧中的公路獨自行走,不知道前麵有多遠,不知道周圍有什麽,隻能看到一輛輛車呼嘯而去。沒錯,他剛剛賣掉公司,有1000萬美金,生活不愁。但是大多數取得了這樣程度成功的人,會把下一個目標定為“再做一家上市公司”,去融更多的錢,打更狠的仗,而絕對不願意選一條未知而孤獨的路自己走下去。

在ddg發展起來之後的年頭裏麵,更多的人開始嚐試做一個“在某種程度上替代Google”的搜寻係統,比如法國人的qwant,塞浦路斯的searchencrypt,都是類似概念的搜寻引擎。回到搜寻本身,做為用了長達7年ddg的用戶,我的感受是什麽?確切的說,隨著ddg搜寻範圍的擴展,今天用起來已經體驗不錯了。ddg從2012年提供了一個叫做!bang的功能,在搜寻詞前麵加上一個前綴,就可以轉向其他搜寻引擎。比如 “!g 電影” 就會直接跳到Google搜寻關鍵詞“電影”。“!a switch”,就會跳到amazon.com 搜寻switch。這個功能很簡單,但是有效降低了嚐試新搜寻引擎的成本。每個關鍵詞用戶都可以先在ddg搜寻試試看,對搜寻結果不滿意再轉向google。我比較直觀的體驗是這些年裏,我使用!g的比例越來越低了。更有趣的是,Google越來越趨向於根據用戶數據,給不同用戶展示不同的搜寻結果,結果是ddg的搜寻結果總是會和Google的不太一樣,可以獲得一些在Google搜寻不到的結果。這使得ddg更有競爭力,它永遠能成為google搜寻結果的有效補充,被使用的價值也就越來越高,2016年美國總統大選之後,人們又把它做為突破“信息同溫層”的重要工具。

今天和10年前對比,互聯網世界發生了翻天覆地的變化,互聯網滲透率比10年前高出太多,但是大公司的壟斷、資本的力量也強得多。互聯網滲透率高意味著,再小眾的需求都能找到足夠多的用戶,一個保持低成本運營的團隊,靠滿足這些用戶活下來已經不那麽困難。隻是資本會對你毫無興趣。這類事情在市場熱火的時候沒人想做,人人都有一個上市的夢想。但是當市場進入冬季的時候,這種項目就顯得很有吸引力。

看看2008年的納斯達克指數,對這個說法可能更有感覺。

有人說2019年會是未來十年最好的一年,即使如此,對整個世界來說也不一定是壞事,也許又能讓我們多一些選擇呢?

說到這種小而有用,可以養活自己生存下去的搜寻引擎,連一百萬人口的塞浦路斯都有,中文區竟然沒有這類產品,有點遺憾。我有一位朋友曾經想做一個中國的醫療搜寻引擎。大家都抱怨醫療信息沒有可靠的搜寻,這顯然是個需求。但是前司用競業禁止官司拖住了這件事,從而使得這個項目長期沒法真正開展。希望他2019年能擺脫這些麻煩,真正把這個產品做出來。

來源:HuoJu's BLOG

頂: 0踩: 0

來源:盧鬆鬆博客



相關說明:

1、VIP會員無限製任意下載,免積分。立即前往開通>>

2、下載積分可通過日常 簽到綁定郵箱 以及 積分兌換 等途徑獲得!

3、本站資源大多存儲在雲盤,如出現鏈接失效請評論反饋,如有密碼,均為:www.ipipn.com。

4、所有站內資源僅供學習交流使用。未經原版權作者許可,禁止用於任何商業環境,否則後果自負。為尊重作者版權,請購買正版作品。

5、站內資源來源於網絡公開發表文件或網友分享,如侵犯您的權益,請聯係管理員處理。

6、本站提供的源碼、模板、軟件工具等其他資源,都不包含技術服務,請大家諒解!

7、源碼、模板等資源會隨著技術、壞境的升級而存在部分問題,還請慎重選擇。

PS.源碼均收集自網絡,如有侵犯閣下權益,請發信件至: admin@ipipn.com .


源站網 » 解讀DuckDuckGo:另一個搜寻引擎的故事

發表評論

讚助本站發展 維持服務器消耗

全站源碼免費下載 立刻讚助