2022年2月23日 星期三

[Proxy]資料蒐集與proxy使用by brightdata

    最近因為工作上的需要,要爬取facebook,instagram之類的社群網站上的資料,但因為常常會遇到被網站方ban ip的問題,以往會使用假帳號取得資料,不過現在這些社群網站在導入AI抓假帳號跟爬蟲之後,假帳號越來越難取得,也越來越快會被ban掉,使得爬蟲的效率越來越低落。


    當時有其他團隊的同事推薦了一個proxy服務- bright data,試用了之後發現效果的確很讚,他有提供了四種不同類型的ip可以使用,分別是"數據中心","靜態ISP","動態住家","手機",其中的住家ip跟手機ip幾乎八成以上都可以取的到資料,原本純粹使用自己建置的解決方案只有一到兩成的成功率,同時成本也不低,使用這個解決方案之後解放了很多時間可以去處理其他問題


    後來深入研究一下他們的服務,也跟他們台灣區的負責人聯繫上,才發現原來他們的服務不只是proxy,還有許多在爬蟲,資料蒐集上面很有用的功能,也有一種unblocker proxy是可以讓你閃過驗證碼阻擋跟其他驗證機制直接取得資料,並且他們的ip有7200萬組以上,非常實用。


    也有直接下載包含LinkedIn的資料等等的現成資料集,客製化抓取資料(ex:電商網站產品價格....)等等的服務,也可以直接幫你抓取搜尋引擎的搜尋結果。



    在計費上面也很靈活,有用多少扣多少的方案跟月費方案可以選擇,自由度極高。




沒有留言:

張貼留言

Google Analytics初學者入門簡介