પીડીએફ દસ્તાવેજોની સામગ્રીમાંથી ડેટાને સ્ક્રેપ કરવું એચટીએમએલ દસ્તાવેજોથી આમ કરવા જેટલું સરળ નથી, તેમ છતાં હજી પણ ઘણી રીતો છે જેનો ઉપયોગ કરીને પ્રાપ્ત કરી શકાય છે. GrabzIt ની વેબ સ્ક્રેપર. પીડીએફ કન્ટેન્ટને સ્ક્રેપ કરવા પહેલાં તમે જેનો ઉપયોગ કરો છો PDF
કરતાં કાર્યો Page
વિધેયો પરંતુ અન્યથા વિધેયો સામાન્ય રીતે તે જ રીતે કાર્ય કરે છે.
પીડીએફ દસ્તાવેજ માટેનું ફિલ્ટર એ એચટીએમએલ દસ્તાવેજ માટે તેના કરતા ખૂબ સરળ છે સૌ પ્રથમ તમારે તે સ્પષ્ટ કરવું આવશ્યક છે કે તમે કયા પ્રકારની સામગ્રી કાractવા માંગો છો: લિંક્સ, છબીઓ અથવા ટેક્સ્ટ.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
લિંક્સ અને છબીઓ માટે તમે પ્રતિબંધિત કરી શકો છો કે કઈ છબી અથવા લિંક તેની સ્થિતિ સ્પષ્ટ કરીને પરત કરવામાં આવે છે.
PDF.getValue({"type":"image","position":"2"});
દસ્તાવેજમાં બીજી છબી મેળવે છે. ટેક્સ્ટ, છબીઓ અને લિંક્સ માટે તમે પૃષ્ઠ નંબરનો ઉલ્લેખ કરીને પાછા ફરતા ડેટાને પ્રતિબંધિત કરી શકો છો.
PDF.getValue({"type":"image","position":"2","page":"5"});
આ પાંચમા પૃષ્ઠથી બીજી છબી પરત કરશે. ટેક્સ્ટ લાઇન નંબરના optionપ્ડ વિકલ્પ સાથે આવે છે, જો કે ટેક્સ્ટ પોઝિશનને સપોર્ટ કરતું નથી.
PDF.getValue({"type":"text","page":"5","line":"10"});
આને પાંચમા પાનામાંથી ટેક્સ્ટની દસમી લાઇન મળે છે. આ ફિલ્ટર વિકલ્પ તફાવતો સિવાય પીડીએફ દસ્તાવેજોમાંથી ડેટાને સ્ક્રેપ કરવા માટે ખૂબ સમાન રીતે કાર્ય કરે છે એચટીએમએલ દસ્તાવેજોમાંથી ડેટાને સ્ક્રેપ કરવું, તેમ છતાં, કારણ કે તમે પીડીએફ ફિલ્ટર સાથે જે કાractશો તે વિશે તમે વિશિષ્ટ થઈ શકતા નથી, તમારે એક સ્પષ્ટ કરવાની જરૂર પડી શકે છે પેટર્ન ટેક્સ્ટમાંથી સાચી માહિતી કાractવા માટે.