您現在的位置是:首頁 > 綜藝首頁綜藝

第三課:從google抓取郵箱

由 邦閱網 發表于 綜藝2022-12-01
簡介1:8087’}本ID這裡例子中的8087是SS預設的埠,懂的同學是不是看的很眼熟,注意http和https兩個都需要修改,如果你用的是VPN全域性翻,那麼埠一般就省掉了,像下面這樣即可:proxies = {u‘http’: u‘htt

如何提取公共郵箱的檔案

小編提示:2。0新版已經發布

https://www。52by。com/article/34167

{“style”:“3”,“is_free”:“0”,“appid”:“wx98d9aee5d9faa8b0”,“lite_id”:“1645”,“pic”:“https://static。52by。com/yue/lite/touch/article/166270878673354413157。png”,“title”:“我的小站”,“descript”:“樣板房啦,隨意”,“path”:“”,“lite_path”:“/”,“page”:{}}

本來不想在這節課講如何用google來抓取郵箱的,但因為我們外貿邦網站最近上線的那個提取郵箱的功能實質上也是透過google來提取,但這裡面絕不存在為了那個讓路的嫌疑,只是透過這幾天的上線還有使用者的反饋,我們發現google對大批次的抓取的監測非常嚴格,一個伺服器的單位時間上限估計就是200左右,除非像我們腦子抽住一樣為了使用者體驗買了100多臺伺服器,否則

這對普通使用者來說太嚴格了也不實用,對你們民用來說,只有一個解決方法,就是用時間換空間,拉長抓取時間。另外一個原因麼大家都清楚的,為什麼大家都喜歡google而不喜歡bing,你技術上確實差了別人n條街,同樣一個搜尋結果google就是搜尋的更精準,更不要說baidu了,壓根上不了檯面,那還是原始時代的東西,考慮到很多同學還在科學上網的邊緣,實在不適合進度太快。所以這節課分為上下兩部分,上部分為正統課,也就是這篇文章的內容,本ID假設你已經會科學上網了,那麼你只要照著我的課一步步做下去就可以抓取google了,如果你不會,那麼你還需要下半節課來補這方面知識。

先來對之前課程比較模糊的一些理論定性下,因為距離上次課程也有2周了,同時也給新來的同學補補課。

我們透過兩節課的學習其實是學習瞭如何用機器來模擬人的重複性勞動,提到了單位經濟生產力

,我們來想想如果今天我不用機器的話要找郵件的步驟是怎麼樣的?是不是先要開啟瀏覽器,然後輸入產品關鍵字+郵件字尾關鍵字,在結果中用肉眼搜尋提取,翻頁再查詢,然後換一個郵件字尾,再重複,高階點的在搜尋結果中開啟目標網址,然後對網頁進行郵箱提取,再高階點的,對目標網址進行關聯網頁的挖掘,然後把上述提煉的郵箱放到自己的郵箱列表裡進行群發。這些動作基本對於業務員來說每天都需要重複,你們的老闆和同事肯定也跟你們說過,要堅持,不斷的發郵件,總會有希望的。其實從公式的角度來說前半段話就是提煉大量郵件,後半段話表示郵件發出去被回信的機率,我們這裡假設用機器提取的郵箱被回信的機率要小於人工提取的(這是肯定的,因為我們沒有做篩選),但提取郵件的數量要遠遠大於人工提取的,我們只要保證:機器提取的郵箱*較小的回信機率 >= 人工提取的郵箱*較大的回信機率,也就是隻要滿足(

機器提取的郵箱 -

人工提取的郵箱)/100 > (

較大的回信機率

-

較小的回信機率

)就可以了,當機器獲取郵箱的成本遠遠小於人工獲取的時候,

這就很容易被驗證。

第二節課裡中我們最後產出了一個csv檔案,

這種格式的檔案可以被幾乎所有的郵件客戶端匯入

,聰明的你應該知道後面群發如何操作了吧。

我們要明白一個道理,存在即合理,就像玩遊戲,有些人喜歡辛苦練級,有些人喜歡直接RMB購買,無非就是一個花錢買時間的事情,這和經濟學中說的富人寧可把牛奶倒在地溝裡也不會給窮人喝其實是一個東西。市面上存在著很多幫你找郵件的軟體,外貿邦也是一樣,原理萬變不離其宗,你有錢可以直接去買他們的服務,沒錢或者你想學點東西就老老實實的上本ID的課,但相應的你花出去的就是時間和學習成本了,每個人都需要衡量一下自己,哪些是適合自己的,哪些是不能要的。

下面開始上本節課的知識點。

【註釋】

大家在看以前class_1。py這種指令碼檔案的時候,是不是總是會看到 # 這個符號,

這個意思就是告訴python被 # 標記的這行程式碼不要執行

,這就為我們在調整一些變化下提供了很大的便利,例如下面這個示例程式碼:

process_type = u‘bing’

#process_type = u‘google’

process_type是個變數,他的值決定了我們後面呼叫哪個搜尋引擎來抓取,由於第二行被加了 #,所以不會被執行到,結果就是我們用bing來抓取,如果我們把程式碼變成下面這種:

#process_type = u‘bing’

process_type = u‘google’

那麼第一行程式碼就不會被python執行到了,這時候process_type的值就變成了u‘google’,表示我們呼叫google來抓取郵箱,那麼下面這種情況是呼叫bing呢還是google?

process_type = u‘bing’

process_type = u‘google’

答案是google,因為python執行了第一行後又執行了第二行,第二行的結果就覆蓋了第一行了。

【代理】

如果我們手上已經有可以用的代理伺服器地址了,那麼就把他填在下面這段程式碼裡:

proxies = {

u‘http’: u‘http://127。0。0。1:8087’,

u‘https’: u‘http://127。0。0。1:8087’

}

本ID這裡例子中的8087是SS預設的埠,懂的同學是不是看的很眼熟,注意http和https兩個都需要修改,如果你用的是VPN全域性翻,那麼埠一般就省掉了,像下面這樣即可:

proxies = {

u‘http’: u‘http://127。0。0。1’,

u‘https’: u‘http://127。0。0。1’

}

如果你這裡看的一團霧水,別急,我們還有下半節課,你今天付出多少努力,明天你就會得到多少,很簡單的。

沒了,就這麼兩個知識點,本ID儘可能的把所有說了你也不一定懂的細節都隱藏掉了,

我們上這些課的目的就是儘可能的讓大家都能節約生命,不要浪費在無聊的重複勞動上,我們應該花更多的精力在如何寫開發信,如何維護客戶關係上,這種事交給電腦交給python交給我交給外貿邦就可以了

。讓我們開啟網盤,下載class_3。py檔案,右鍵選擇“Edit with IDLE”,照著上面教的知識點修改下方紅框標記的地方:

第三課:從google抓取郵箱

至於別的幾個變數email,want,f 還是像第二課中的那些,根據自己需要的來修改,完事了按F5吧。還有一個需要注意的是,有些代理,比如路由器層面的代理可能會不支援https這個格式,碰到的情況是執行的時候提示有SSL Error這種錯誤提示,這時候需要我們把程式碼裡的https://www。google。com。hk/search 改寫成 http://www。google。com。hk/search 。

上半節課完,下面開始下半節,但不是在這裡上,因為下半節課的內容比較敏感,而且現在這個時間點又特別敏感,所以還是必須要收斂一點的,另外下半節課也不是每個同學都需要上的,已經會科學上網的同學或者能順利執行class_3。py的同學是不需要上的,本ID只是對基礎差的同學補補課,嗯嗯……

課件下載:

https://www。52by。com/file_download/2826

第一課:2秒鐘內獲取50個郵箱:

https://www。52by。com/article/1993

第二課:從50個郵箱到1000個:

https://www。52by。com/article/1994

這裡還附上微信中Leon同學的修改google方案(這個是針對啟用了系統代理的方案):

新的問題,自己試著解決了,我果然是當程式設計師的料。 ping通谷歌,並且把proxies={ …… } 這幾行都註釋掉後還需要去掉後面的“proxies=proxies”,否則會出現新的問題:NameError: global name ‘proxies’ is not defined。

2019.5.30 更新:感謝邦友“愛聰”的跟進,最近發現google的搜尋規則發生了變動,所以之前下過第三課指令碼同學需要重新下載一個新的,執行的時候需要先在cmd裡多安裝一個庫 "pip install fake_useragent" (引號不要輸入)

原作者:我真的是客服

原出處:

邦閱網