將網際網路視為資料庫 我一直喜歡將互聯網(資料來源)視為資料庫的概念。 但是,當然,網路並不是一個大型資料庫。這是一個頁面集合。其中許多頁面,以及屬於單獨網站的幾乎每個頁面,都是以不同的方式建構的。有些建 馬耳他 電話號碼庫 得很好,有些則建得很糟糕。雖然都是 HTML、CSS、JS 等,但它們都是基於開發人
瀏覽器如何能夠解決所有這些問題並向使用者呈現有用的網頁,這實際上是令人驚奇的。但當需要嘗試收集資料時,網路的不一致可能是您最大的敵人。從網頁中提取資料可能非常困難,因為它們的標記都略有不同。 這就是 XPath 可以提供幫助的地方。 為什麼這有用? 我正在使用 XPath 表達式為我想要從中提取資料的不同網站建立架構。
其中一些是一次性任務,有些用於內容探索,有些是資料傳輸所需的。 XPath 之所以有效,是因為一旦您解決了找到在網頁元素中選擇資料的最優雅方式的問題,只要頁面設計不會發生變化,它就會繼續發揮作用。 XPath 是如何運作的? 當您正在尋找特定的 XPath 表達式時,最簡單的解決方案是複製您可以找到的表達式的最佳版本(通常在 Stack 上)。
顯然,這是不可避免的,我們都很忙,有時我們只需要在短時間內解決問題。 如果您需要 XPath 備忘單的表達式列表,這裡有我的一些: 元素 X路徑 頁面標題 //標題 元描述 //元[@name='描述']/@content AMP 網址 //連結[@rel='amphtml']/@href 規範網址 //連結[@rel='canonical']/@href 機器人(索引/無索引) //元[@name='機器人']/@content H1 //h1 氫2 //h2 H3 //h3 文件中的所有連結 //@href 在名為 any 的類別中找一個元素 //*[@class='任意'] 但它不僅僅是複製 XPath 表達式。
XPath 具有表達式、過濾器(謂詞)和函數。您越了解其功能,就越有可能節省時間。 我們將從基礎知識開始,然後繼續討論 XPath 稍後可以解決的更複雜的問題。 全面的現場審核 專業且全面的網站審核 - 對您的專案進行全域分析✔ 包含錯誤清單和改進建議的詳細報告✔ 提高轉換率 獲取諮詢 我們的經理將盡快與您聯繫 發送請求 基礎知識:如何編寫 XPath XPath 使用路徑運算式來選擇 XML 文件(當然也可以是 HTML 文件!)中的元素。