• 每日首存官网

  • 每日首存官网

  • 每日首存官网

  • 每日首存官网

每日首存官网

作者︰whl  發布日(ri)期︰2020-02-27 14:41:00
  •   相信(xin)大家對(dui)于java這個(ge)編程語言(yan)都並不陌生了吧,平日(ri)里我(wo)們使用的很多軟(ruan)件(jian)其實都是通(tong)過java來(lai)實現(xian)的。今天小編就給大家詳(xiang)細講解(jie)下關于如何wen)褂ava來(lai)進行(xing)百(bai)度圖片的爬取操(cao)作,有xing)枰 吶peng)友趕緊一(yi)起來(lai)看看吧。

      具體如下︰

      在以往(wang)用java來(lai)處理解(jie)析HTML文檔或者片段wen)保 wo)們通(tong)常會采用htmlparser這個(ge)開源類庫。現(xian)在我(wo)們有了JSOUP,以後的處理HTML的內容只需要使用JSOUP就已經足夠了,JSOUP有更快的更新,更方便的API等。

      Jsoup 是一(yi)款 Java 的HTML 解(jie)析器,可直接解(jie)析某個(ge)URL地址、HTML文本內容。它提(ti)供(gong)了一(yi)套非(fei)常省力的API,可通(tong)過DOM,CSS以及類似于jQuery的操(cao)作方法來(lai)取出(chu)和操(cao)作數據,可以看作是java版的jQuery。

      Jsoup的主要功能如下︰

      從一(yi)個(ge)URL,文件(jian)或字符串中解(jie)析HTML;

      使用DOM或CSS選擇器來(lai)查(cha)找、取出(chu)數據;

      可操(cao)作HTML元素、屬性、文本;

      Jsoup是基于MIT協(xie)議(yi)發布的,可放心使用于商業項目。

      步驟大致(zhi)可以分為三個(ge)模塊︰一(yi)是獲取網(wang)頁的資源,二是解(jie)析獲取的資源,取出(chu)我(wo)們想要的圖片URL地址,三是通(tong)過java的io存儲(chu)在本地文件(jian)中。

      獲取網(wang)頁資源的核心模塊就是通(tong)過Jsoup去獲取網(wang)頁的內容,具體核心代(dai)碼如下︰

    核心代(dai)碼

      其中URL地址是qian)bai)度圖片搜索的地址,具體調(diao)用me)肴縵攏/p>

    具體調(diao)用��me)���� src=

      這里需要注意的是︰word是我(wo)們要搜索的關鍵(jian)字,pn是顯示的頁碼,rn是一(yi)頁顯示多少個(ge)數據。

      解(jie)析網(wang)頁的資源,然後封裝起來(lai)。核心代(dai)碼如下︰

    核心代(dai)碼

      這里最(zui)主要的地方就是reg這個(ge)正則表達(da)式,通(tong)過正則表達(da)式,去網(wang)頁中解(jie)析符合規定(ding)的圖片URL地址,然後封裝在對(dui)象中。

      最(zui)後一(yi)部分就是通(tong)過java的io流去圖片地址獲取圖片,並保存在本地。核心代(dai)碼如下︰

    核心代(dai)碼

      這里面的操(cao)作都是java中io篇一(yi)些基礎的操(cao)作,有不懂的可以去看看java中io模塊的內容。

      因為我(wo)這邊是maven項目,所以在開發前(qian)需要引入Jsoup依賴才(cai)可以。

      好了,今天給大家分享的關于如何wen)褂ava實現(xian)百(bai)度圖片的爬取操(cao)作的具體操(cao)作教(jiao)程了,相關示範代(dai)碼也給大家列出(chu)來(lai)了,大家可以認真研(yan)究一(yi)下。如果大家對(dui)于上面這些內容還有什麼(me)不明(ming)白的歡迎給小編留(liu)言(yan),小編會第一(yi)時間進行(xing)講解(jie)的。

每日首存官网

About IT165 -体彩屋官网廣告服(fu)務(wu) -隱(yin)私聲明(ming) -版權申明(ming) -免責(ze)條(tiao)款 -網(wang)站(zhan)地圖 -網(wang)友投稿 -聯系(xi)方式
本站(zhan)內容來(lai)自于互聯網(wang),僅供(gong)用于網(wang)絡ke)際躚 學習中請遵循相關法律(lv)法規
每日首存官网 | 下一页