વેબને કેપ્ચર અને કન્વર્ટ કરવા માટેનાં સાધનો

અનસ્ટ્રક્ચર્ડ ટેક્સ્ટમાંથી સ્ટ્રક્ચર્ડ માહિતી આપમેળે કેવી રીતે કાractવી?

સામાન્ય લેખિત લખાણમાં ઘણી બધી માહિતી શામેલ હોઈ શકે છે જે સરળતાથી કાractી શકાતી નથી. દાખલા તરીકે કોઈ વાક્ય કંપની વિશેની સમીક્ષા હોઈ શકે છે પરંતુ તમે કેવી રીતે જાણો છો કે તે સારી છે કે ખરાબ સમીક્ષા?

સામાન્ય વેબ સ્ક્રેપર આ માહિતીને બહાર કા ableવા માટે સમર્થ હશે નહીં. જો કે GrabzIt તેનો ઉપયોગ કરીને તે પ્રાકૃતિક ભાષા પ્રક્રિયા કરવાની ક્ષમતામાં બનેલું છે. નીચેના ઉદાહરણમાં બતાવ્યા પ્રમાણે, પૃષ્ઠ પાઠાનું વિશ્લેષણ કરવામાં આવ્યું છે અને નીચેના મૂલ્યોમાંથી એક ખૂબ નકારાત્મક, નકારાત્મક, તટસ્થ, સકારાત્મક અને ખૂબ જ સકારાત્મક આપે છે.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

તેમ છતાં GrabzIt ની વેબ સ્ક્રેપર ભાષા શોધ, સ્થાનોનાં નામ, લોકોનાં નામ અને સંગઠનોનાં નામ સહિતનાં ટેક્સ્ટમાંથી ઘણું વધારે કા .ી શકે છે. જેના ઉદાહરણો નીચે બતાવેલ છે.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

તમારે આમાંથી કોઈ પણ સ્ક્રેપ સૂચનો જાતે લખવાની જરૂર નથી, કારણ કે જ્યારે તમે અમારા સ્ક્રેપર વિઝાર્ડમાં લાગુ HTML એલિમેન્ટ પસંદ કરો ત્યારે તે આપમેળે દેખાશે.