વેબને કેપ્ચર અને કન્વર્ટ કરવા માટેનાં સાધનો

કસ્ટમ લિંક તપાસનાર બનાવો

આ ઉદાહરણ એ તરીકે પણ ઉપલબ્ધ છે નમૂનો.

GrabzIt ની વેબ સ્ક્રેપર તે ઘણાં tasksનલાઇન કાર્યો કરવા માટે પરવાનગી આપે છે તે ખૂબ જ લવચીક છે, જેમ કે વેબસાઇટ્સની લિંક્સની તપાસ કરવી અને તૂટેલી રિપોર્ટિંગ.

પ્રથમ વસ્તુ એ બનાવવાની છે ઉઝરડા અને તમે જે લક્ષ્ય વેબસાઇટને તપાસવા માંગો છો તે સોંપો, પછી સ્ક્રેપ સૂચનો માટે નીચેનો કોડ વાપરો.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

પહેલી લાઈન var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); બધા હાયપરલિંક URL કાractsે છે અને તેમને માં મૂકે છે urls ચલ. આગળની લાઈન આનો ઉપયોગ કરે છે ઉપયોગિતા.અરે.યુનિક બધા URL ને અનન્ય બનાવવાની પદ્ધતિ.

ત્રીજી લાઇન ખાતરી કરે છે કે આ કરવા માટે લિંક્સની બે વાર ચકાસણી કરવામાં આવતી નથી, અમે યુઆરએલની જે અગાઉ હતી તે વાંચીએ છીએ saveડી અને આ દ્વારા કા extેલી લિંક્સને ફિલ્ટર કરો. જો તમે ઇચ્છો છો કે દરેક પૃષ્ઠ એક લિંક તૂટેલું છે, તો તે નોંધવા માટે આ લાઇનને કા deleteી નાખો.

યુઆરએલ ડેટા સાફ થઈ ગયા પછી અમે બાકીના દરેક યુઆરએલ દ્વારા લૂપ કરીશું, તેને સાચવીએ છીએ ડેટાસેટ વર્તમાન પૃષ્ઠ સાથે, ચકાસીને પહેલાં URL નો ઉપયોગ કરીને અસ્તિત્વમાં છે કે નહીં Utility.URL.exists પદ્ધતિ. ત્યારબાદ આ ચેકનું પરિણામ પણ આવે છે saveડેટાસેટમાં ડી.

વૈકલ્પિક રૂપે તમે કોડને બદલીને વેબસાઇટ્સની છબીઓ અસ્તિત્વમાં છે તે ચકાસી શકો છો Page.getTagAttributes('href', {"tag":{"equals":"a"}}); સાથે Page.getTagAttributes('src', {"tag":{"equals":"img"}});.