AktuelnoPriručnik za istraživačko novinarstvo

Osnove pretraživanja na internetu

03. apr 2008.
CINS istražuje pretraživanje interneta: danas to jednostavno čak ni za one koji znaju dobro da koriste tzv. pretraživače, poznaju im načine rada, mogućnosti, mane i prednosti

Ako znamo potpunu adresu internet stranice koju želimo da posetimo npr. www.osce.org, stvar je jednostavna – u programu za pregledanje interneta (browseru) upisaćemo adresu na predviđeno mesto i on će učitati stranicu. Međutim, ako ne znamo adresu, poželjno je ili gotovo neophodno poslužiti se pretraživačima za “surfovanje” po internetu, jer su to web sajtovi koje prikupljaju informacije o sadržaju sajtova koji su dostupni na internetu i nude nam njihove adrese. Na njima se nalaze opisi miliona internet stranica sa linkovima (vezama) za te stranice.

 

Iako je većina pokretača takvih servisa shvatila da se sa kataloškog principa (direktorijuma) mora preći na neki objektivniji način davanja rezultata pretrage, manje ili više, svi oni nas na svoj način zapravo lažu. Da, iako to zvuči dosta grubo, to je potpuno tačno, jer se ni za jedan servis ne može reći da je dovoljno objektivan. Posebno, ukoliko imamo u vidu, naš novinarski pristup. Uobičajeno, postupak je takav da pretraživaču kažemo šta tražimo upisivanjem ključnih reči, sintagmi ili pitanja u polje za pretragu. Servis obično odgovara na upit listom web stranica koje sadrže zatražene pojmove, i mi treba da dobijemo rezultate koji po relevantnosti najviše odgovaraju traženim informacijama. Međutim, to nije uvek baš tako. Rezultati su od vrha na dole ispisani prema nekim drugim pravilima, svojstvenim samo internet pretraživačima. Nijedan pretraživač nema zapravo ukupnost i nije suštinski objektivan u odnosu na svetsku internet mrežu, jer kada ukucamo neki upit u box pretraživača, mašina zapravo ne “prolazi” kroz ceo svetski internet tražeći našu reč, kako to novinari misle, već češlja SVOJE baze podataka do tada indeksiranih stranica prema nekom svom protokolu.

 

Razloga za takvo “ponašanje” servisa, osim tehničkih, ima nekoliko. U vreme kada su nastajali prvi pretraživači i broj internet sajtova bio je neuporedivo manji nego što je to danas, ili što će biti u nekoj bližoj budućnosti, pošto broj web stranica raste neverovatnom progresijom. Prema nekim procenama početkom 2007. godine ukupan broj internet stranica iznosio je između 15 i 30 milijardi. Pretraživači uključuju milione stranica na internetu i oni se svakodnevno osvežavaju, ali nijedan od njih ne može da indeksira čitav Web, a neki podaci ( NEC Research Institute ) govore da svi pretraživači zajedno obrađuju tek 16 odsto svetskog interneta. Iz toga i proizilazi da je objektivnost pretrage zapravo obrnuto srazmerna povećanju ukupnog broja internet stranica u svetu. Ukoliko je ta tvrdnja tačna, to znači da će u budućnosti pretraživači biti još manje objektivni.

 

Druga važna činjenica jeste enormna upotreba tzv. SEOSearch engine optimization tehnika (www.seochat.com), koje podrazumevaju veštački napor vlasnika sajtova da im se prezentacija što bolje pozicionira (što bliže prvih deset) na listinzima pretraživača. Svakoga dana više stotina hiljada ljudi širom sveta neumorno primenjuje različite tehnike od tzv. razmene linkova do namernog ponavljanja ključnih reči u tekstovima prezentacije (Keyword Oriented) sa intencijom da se prevari mašina. Uz korišćenje SEO tehnika dobar programer može čak na prvo mesto pretraživača postaviti sajt, čiji je sadržaj trivijalan. Zato je pitanje pouzdanosti informacije na Web-u, kako na običnim sajtovima tako i pretraživačima veoma značajno. Ako jasno kažemo da Google visoko pozicionira neki sajt zahvaljujući tome što ima veliki broj ponavljanja neke ključne reči, ili zato što je programer dobro ispisao kod, ili zato što se sajt ažurira svakoga dana, onda je jasno zašto treba biti obazriv. Kao i da nisu sadržajni faktori presudni u pogledu pozicije sajta kao što je to uobičajeno u novinarskom svetu. Da li onda treba verovati pretraživačima gotovo da je jednako pitanju da li treba verovati nekim konvencionalnim reklamnim servisima. Primena SEO tehnika odavno živi i na domaćem internetu i nemojte se začuditi ukoliko otkrijete njene tragove i kod nas.

 

I treća važna komponenta u prilog činjenici o neobjektivnosti ovih mašina jeste problem sadržaja, koje pretraživači uglavnom ne registruju, kao što su sadržaji sajtova koji su namenjeni zatvorenoj grupi korisnika, razni intranet sadržaji, sajtovi izrađeni u flash tehnologiji, ili sadržaji sajtova koji imaju neke skripte. Na osnovu ovoga možemo upravo prepoznati i suštinsku razliku između enciklopedija i klasičnih internet pretraživača. Enciklopedije, koliko god da mogu biti autorske, imaju suštinsku intenciju da budu objektivne i istinite, dok se za pretraživače to ne može reći. Njihova prava priroda dosta je skrivena. Zato na putu pretraživanja interneta zapravo pravih putokaza ima veoma malo, ali zato od velikog broja reklamnih bilborda i ne vidimo više put.

 

Sada kada smo razbili osnovnu famu oko pretraživanja interneta, možemo reći da pretraživači mogu ipak dati neke veoma upotrebljive informacije. Oni su obični softverski alati sa određenim pravilima kako ih treba koristiti da postignu najbolje rezultate, koja su obično dostupna na stranicama za pomoć (www.google.com/support/, www.help.yahoo.com, http://pomoc.krstarica.com/?action=category&cat_id=013). Sve pretrage na kompjuteru bazirane su na pretraživanju tzv. baza podataka po ključnim rečima, pa to važi i za pretraživače, bilo da oni pretražuju fotografije, muzičke i video fajlove, ili tekstove. Set podataka je po pravilu uvek tekstualni zapis, odnosno opis, koji je raspoređen prema nekom redosledu, u nekom nizu. A logika pretraživanja je zapravo vrlo jednostavna, jer se jednim klikom u nizovima proverava da li postoji zahtevana ključna reč. Sama sintaksa pretraživača u pogledu fraza se može donekle razlikovati, jer različiti autori baza i sajtova koriste i različite tehnologije, ali je princip svuda isti. Tako postojeći pretraživači na različite načine indeksiraju web stranice, pa te informacije potom smeštaju u svoje baze podataka koje mi onda pretražujemo.

 

Ipak, uspešno pretraživanje može podrazumevati kombinovanje više načina za pronalaženje informacija na internetu. Neka tri osnovna načina podrazumevaju određenu vrstu pogađanja naziva sajta, pretraživanje tematskih kataloga (direktorijuma) i pretraživača u pravom smislu. Ukoliko tražimo neku specifičnu organizaciju ili instituciju, možemo upravo pokušati pogađanjem naziva (domena) internet sajta, jer se nazivi dodeljuju prema nekim pravilima. To su najčešće skraćenice naziva kompanije kao što je www..co.yu, uz dodavanje adekvatnog nacionalnog domena (co.yu[3] za firme, org.yu za organizacije, ac.yu za obrazovne ustanove i sr.gov.yu za vladine sajtove). Pretraživanje kataloga uključuje internet resurse koje je čovek prikupio i klasifikovao po oblastima, što može biti korisno kada polazimo od opštije pretrage oblasti na neke pojedinačne teme.

 

Praktičan primer: Korupcija

 

Uzmimo npr. reč korupcija. Običnim pogađanjem možemo da dođemo do sajta novinske agencije Beta http://www.beta.co.rs/, jer smo uz reč dodali domen za organizaciju i dobili sajt koji nam svakako može biti ozbiljan resurs za različite prethodnu pretragu novinarskih radova. Pregledanje kataloga sajtova na www.krstarica.com nas može odvesti do podgrupe Društvo, pa na podgrupu Državne organizacije među kojima se nalazi oficijelni sajt Saveta za borbu protiv korupcije www.antikorupcija-savet.gov.rs/. Možemo naći i enciklopediju Vikipediju – www.sr.wikipedia.org.

 

Pa pošto smo u startu raščistili da nas svi pretraživači pomalo lažu, uputićemo sada i osnovnu preporuku prilikom pretraživanja Weba. Poželjno je koristiti više pretraživača, i to različite pretraživače za različite vrste informacija, odnosno sadržaja. Prirodno je da se naviknemo na jedan pretraživač, ali je korisno koristiti i druge pretrazivace. Preko 80% ljudi koji ne pronadju zadovoljavajući rezultat pretrage pokušava da ga pronadje ponovo na istom pretraživaču, koristeći druge ključne reči ili fraze (međunarodni pandani domaćim domenima su .com, .org., .gov., .edu). Osnovni razlog za ovakvo ponašanje je veoma jako ubedjenje da je praktično svejedno na kom će se pretraživaću tražiti podaci, jer oni pružaju iste rezultate – a to uopšte nije tačno.

 

Zato je najvažnije pre nego se upustite u pretraživanje da znate zapravo šta tačno tražite i da odredite najpribližnije pojmove za pretragu. Sve je onda lakše – sve je onda samo tehnika. Usmerenost na rezultat pretrage je najvažnija. Ukoliko baš i nemate vremena da provedete sate i sate ispred računara, razmišljajte prvo o tome šta stvarno tražite i gde bi ste to mogli da pronađete. Analogija sa realnim životom je uvek poželjna. Ako recimo istražujemo neku ekološku temu i potrebni su nam nekakvi relevantni podaci o zagađivačima u Srbiji, najbolje bi bilo krenuti od pretrage sajta Ministarstva za zaštitu životne sredine (http://www.ekoplan.gov.rs/src/index.php), Zavoda za zaštitu prirode, i srodnih institucija, a potom sajtova organizacija koje se direktno bave ekološkim temama. Ako sa druge strane istražujete šverc i krijumčarenje, polazne tačke mogu da vam budu sajt Uprave carina, MUP-a Srbije. Naravno da vam sajtovi kao i institucije u realnom životu neće dati podatke na tacni, ali morate malo i da se potrudite. Svaki informator organa javne vlasti koji treba da bude dostupan na internetu može sadržati odlične polazne tačke za istraživanje.

 

Možda niste znali: I samu stranicu koja je na ekranu možete pretraživati. Kliknite CTRL+F i otvoriće vam se searchbox Internet Explorer-a, ili Firefoxa, i upišite željenu ključnu reč.

Povezane priče

Autor:

Ostavi komentar

Prati
CINS neće objavljivati komentare koji sadrže uvrede, govor mržnje, pozivanje na nasilje ili diskriminišu bilo koju društvenu grupu. Takođe, nećemo odobravati optužbe na račun pojedinaca koje ne možemo da dokažemo. Hvala što poštujete ova pravila :)
Obavesti me o
guest
0 Komentara
Ugrađene povratne informacije
Pogledaj sve komentare

Tagovi

Povezano