收集的網頁數量和其數據庫的更新速度存在著不可調和的矛盾。用戶經常無法打開查詢的結果。網絡信息時刻變動,實時搜索幾乎不可能。就是剛剛瀏覽過的網頁,也隨時都有更新、過期、刪除的可能。網絡信息收集與整理是搜索引擎工作的重要一部分。搜索引擎需要定期不斷地訪問網絡資源。目前網絡帶寬不足,網絡速度不夠理想,遍歷如此龐雜的網絡時間花費是非常龐大的,這就是不能實時搜索的原因。
對多媒體內容的處理尚不成熟。迄今為止,搜索對象主要是文本。基于語義的多媒體搜索技術還不成熟,比如搜索圖片時還只能通過周圍相關的文字進行判斷,而無法根據圖片本身的信息提供檢索。多媒體技術的發展,對搜索引擎提出了更多的要求。人們期望引擎不僅能挑出自己需要的文章,還能挑出自己所關心的圖片、電影、音樂等。
搜索引擎的“智能”有待提高。一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動排序軟件Spiders蜘蛛程序,只能接受這種格式的網頁。這意味著,在企業內部的局域網上,任何沒有使用HTML格式的信息將無法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應用軟件的數據庫的信息會長期的“沉沒”在信息的海底中。智能搜索引擎具有跨平臺工作和處理多種混合文檔結構的能力。譬如既能處理HTML(Hyper Text Markup Language,超文本標志語言),又能處理SGML(Standard for General Markup Language,通用標志語言標準)和XML(Extended Marked Language,擴展標志語言)文檔以及其他類型的文檔,譬如Word、WPS等。智能搜索引擎應該可以支持多語言搜索。
搜索引擎應更好地支持動態網頁,許多蜘蛛軟件不敢去碰動態網頁,怕被變化無窮的動態系統黑洞吸進去出不來。然而,網站使用動態網頁生成工具乃是大事所趨,解決動態網頁查找的問題已經迫在眉睫。
如何解決這些難題已成為第三代搜索引擎探索的方向。一個好的搜索引擎不再僅憑借數據庫大小、更新頻率、檢索速度、對多語言的支持這幾個基本特性來衡量,隨著數據庫容量的不斷膨脹,如何從龐大的資料庫中精確地找到正確的資料,被公認為是下一代搜索技術的競爭要點。