Anonymous
Anonymous asked in 電腦與網際網路程式設計 · 1 decade ago

如何擷取網頁內容到資料庫~

最近要弄一個比價系統,必須到各網站去截取它的資料,請問該如何擷取?

用PHP嗎?還有如果網站更新了,我們的系統要如何同步更新?

請問我該怎麼做呢?!

2 Answers

Rating
  • YOGO
    Lv 5
    1 decade ago
    Favorite Answer

    若不介意看書的話,可參考這本書,他的範例可以完全符合你的需求

    相關訊息:http://www.books.com.tw/exep/assp.php/yogo/exep/pr...

    網路機器人、網路蜘蛛與網路爬蟲

    圖片參考:http://www.books.com.tw/exep/lib/image.php?image=h...

    內容簡介

    PHP/cURL 程式設計指南  超越瀏覽器!網路應用的無限可能...  網

    際網路簡直無所不包。其應用之廣泛,絕非一般瀏覽器所涵蓋的小小範圍而已。無論你是程式設計師也好,一般生意人也罷,只要有心想要充分利用網路龐大的資

    源,那麼『網路機器人、網路蜘蛛與網路爬蟲』這本書就是為你而準備的。你想想看,如果只因為瀏覽器的能力有限,就侷限了你在網路上的體驗,那實在是件很沒

    有道理的事。事實上你完全可以按照個人的需求,輕易的以自動化方式來完成許多網路上不同的工作。你只要學習如何編寫網路機器人與網路蜘蛛,

    就可以完成下面的這些工作:

    .以程式化的方式,自動下載整個網站

    .有效解析出網頁中的資料

    .對cookie進行管理

    .對

    加密過的檔案進行解碼

    .以自動化的方式提交表單

    .自動收發電子郵件

    .利用SMS簡訊,將警告訊息自動傳送到你的手機中

    在受到密碼保護的網站中遨遊

    .在網路拍賣中自動出價

    .自動與FTP或NNTP伺服器,進行資料的交換  本書的範例專案,

    使用的全都是標準的程式碼函式庫,因此更加鞏固了這些新技巧的基礎。你在本書中將會學習到,如何建立自己的網路機器人與網路蜘蛛來追蹤網路上的價格變化,

    或是將不同的資料來源彙整到某個單一的網頁中,又或者也可以將你賴以生存不可或缺的網路資料,用比較好的方式妥善保存起來。你將會從一位經驗豐富的網路機

    器人開發者身上學習到許多內行的門道,知道在什麼狀況下,該如何編寫能掩人耳目的網路機器人來模仿人類的行為,或者是發展出更具有容錯能力的設計,並學習

    到各式各樣啟動網路機器人,對網路機器人進行排程的方法。此外,你也會得到一些建議,讓你在編寫這類程式時,懂得該如何尊重網站主人的產權。另一方面你也

    可以學習到,如何保護自己的網站,才能把那些不想讓它進來的機器人,全部通通擋在門外。  如果你造訪作者的網站,還可以得到一些額外的獎

    勵。你可以運用網站中的範例目標頁面,來測試你自己的網路機器人;本書所使用的所有script腳本與程式碼函式庫,在那裡也全都可以下載得到。 

     對於人們來說,總有一些工作十分重要,但做起來就是很乏味。現在你只要嘗試運用網路機器人,在網路上進行一些自動化的操作,相信你就絕不會再讓瀏覽器限

    制住自己使用網際網路的方式了。目錄

    Part I:基本概念與技術

    CH01 對你來說,有什?用處?

    CH02

    關於網路機器人專案的一些構想

    CH03 下載網頁

    CH04 解析語義(PARSING)的技術

    CH05 表格提交的自動化

    CH06

    管理大量的資料Part II:專案

    CH07 價格監視用網路機器人

    CH08

    影像擷取用網路機器人

    CH09 連結查證(LINK-VERIFICATION)用網路機器人

    CH10 匿名瀏覽用網路機器人

    CH11

    搜尋分級(SEARCH-RANKING)用網路機器人

    CH12 彙整(AGGREGATION)用網路機器人

    CH13

    FTP用網路機器人

    CH14 NNTP新聞用網路機器人

    CH15 能讀取電子郵件的網路機器人

    CH16

    能發送電子郵件的網路機器人

    CH17 將某個網站轉換為一個功能函數Part III:進階技術的相關考量

    CH18

    網路蜘蛛(SPIDER)

    CH19 採購用網路機器人與SNIPERS

    CH20 網路機器人和密碼學(CRYPTOGRAPHY)

    CH21

    認證(AUTHENTICATION)

    CH22 進階COOKIE管理

    CH23 排程(SCHEDULING)用網路機器人與網路蜘蛛Part

    IV:比較大的考量

    CH24 設計能掩人耳目的網路機器人與網路蜘蛛

    CH25

    編寫具有容錯能力的(FAULT-TOLERANT)網路機器人

    CH26 對網路機器人友善的網站設計

    CH27 獵殺網路蜘蛛

    CH28

    讓你的網路機器人遠離是非附錄A PHP/CURL參考資料

    附錄B 狀態代碼

    附錄C SMS EMAIL地址

    相關訊息:http://www.books.com.tw/exep/assp.php/yogo/exep/pr...

    Source(s): YOGO生活誌 http://blog.yogo.tw/
  • 1 decade ago

    若要特定範圍 可能要用正規表達示抓...

Still have questions? Get your answers by asking now.