Curs de robots.txt si analiza link-uri
Joi, 12 Februarie 2009 , de bobby voicu
In ultima vreme se cearta lumea rau: voi spamati Google, voi puneti pagini relevante, nu, nu le punem noi, e un bug in aplicatia web samd.
Pornind de la afirmatia lui Orlando, ca Google e vinovat, m-am gandit sa ofer celor care se pare ca nu se pricep (e omenesc, nu putem sti chiar tot) solutia: fisiere robots.txt ca-re tre-bu-ie pu-se in ra-da-ci-na site-ului (am scris cu liniuta ca sa fie mai rar, sa se inteleaga). Sau sa incerc sa explic alte posibile motive.
Inainte de a incepe: am luat in discutie numai site-urile care au fost discutate: 9am, realitatea.net, hotnews.ro (si antena3, tangent, asa). Mai sunt site-uri care fac tot felul de manarii, dar nu le discut acum.
9am.ro
Preferatii lui Vali, cand vine vorba de prea multe pagini lipsite de relevanta in motoare. Au inclus in index-ul Google pagini precum: /tag/, /comunitate/. Si, la momentul la care scriu articolul, numarul de pagini indexate este:
cautare: site:9am.ro >> 1 410 000 pagini indexate (un milion patru sute zece mii)
cautare: site:9am.ro/tag >> 14 390 pagini indexate
cautare: site:9am.ro/comunitate >> 588 000 pagini indexate
linkuri catre site: 749 (cautare aici )
Paginile de comunitate sunt irelevante (desi hi5.com au si ei indexate, de exemplu). Diferenta e ca cei de pe hi5 chiar sunt activi: poze, comentarii etc. Eu nu am gasit pe 9am.ro decat profile necompletate. Deci puse automat. Pentru ca nu pot sa cred ca din cateva sute de mii nu nimeresc eu chiar nici cu fara activitate.
So, pentru voi, robots.txt ar trebui sa aiba urmatoarele linii suplimentare (nu public acum robots.txt-ul vostru, dar liniile de mai jos nu sunt acolo):
User-agent: *
Disallow: /tag
Disallow: /comunitate
Gata, am rezolvat.
Later edit: Mihai Seceleanu publica Google Analytics cu traficul pe paginile de comunitate pe 9am.ro
Realitatea.net
Aici avem aceeasi problema: tagurile. Insa mai e una: versiunile “print” ale articolelor. Care sunt multe. Vezi mai jos:
inbound links: 603 000 (cautare aici)
cautare: site:realitatea.net >> 807 000 (opt sute sapte mii)
cautare: aici trebuie pus screenshot pentru ca era stricat operatorul allinurl, asa ca vedeti in screenshot cate sunt (presupun ca fiecare articol are versiune de genul asta. Deci sunt destule pagini).
Pentru voi, robots.txt trebuie sa arate cam asa:
User-agent: *
Disallow: /tag/
Disallow: /print*
Ah, si puneti si voi nofollow pe linkurile catre print_#### (creaza continut duplicat si nu e bine), vedeti mai jos de ce.
Una peste alta, trebuie sa va spun ca totusi realitatea face SE spam mai putin decat se crede. Ce fac ei e sa aiba un sistem foarte bun de indexare a subdomeniilor. De aici si traficul suplimentar. Daca s-a fost facut curat sau nu, asta ramane de vazut. Dar pentru moment e ok. Luati in calcul ca domeniul e vechi si ca au o gramada de linkuri. Parerea mea? Pe langa faptul ca au o gramada de inbound links pentru ca multa lume a dat link natural catre ei, cred ca in ultimele 6 luni au avut si o campanie agresiva de link building.
Hotnews.ro
cautare: site:hotnews.ro >> 344 000 (trei sute patruzeci si patru de mii)
cautare: site:hotnews.ro/tags >> 1700
inbound links: 7660 (cautarea aici)
Nu stiu exact cum era inainte, dar acum HotNews sunt curatei. Nu au renuntat la preluare de continut “gratuit” de pe net, dar se rezolva, din cate observ.
“Discutia” despre spam de la ei a pornit, dar, din pacate, nu are continut. Motivul fundamental pentru care realitatea.net a cunoscut boom-ul mentionat de Dragos Manac e reprezentat de o campanie de link building sustinuta in ultimele luni (o gramada de linkuri in wiki-uri fara nici o legatura cu continutul site-ului samd ma face sa cred ca nu a fost naturala cresterea). Da, sunt multe tag-uri, da, nu ar trebui sa fie, dar nu asta e motivul. Daca e vreo forma de spam, nu e tag spamming, e link building spamming :D
Later edit: Realitatea.net publica motivatiile pentru care traficul lor a cunoscut un asemenea salt. Daca cititi cu atentie, e cam ce zic eu in paragraful anterior.
O alta explicatie poate fi si faptul ca Google si-a imbunatatit sistemul de analiza a continutului duplicat. Hotnews si 9am.ro sunt site-uri care fac/au facut preluari (iar Google nu stie de directiva CRP, cu 500 de caractere :D ). Ca e de la MediaFax/NewsIn sau mai stiu eu ce alta agentie, ca e de pe site direct, de la ziare sau televiziuni, continutul este in mare acelasi. In consecinta, e posibil ca domeniile respective sa fi fost penalizate de motorul de cautare pentru prea mult continut duplicat.
Si totusi, prea a explodat buba acum. Mihai Seceleanu da print screen cu google analytics (as vrea sa vad acelasi print screen pe ultimii doi ani, sa stii), Dragos Manac e revoltat de 60.000 de tag-uri ale realitatea, dar nu cauta argumente mai bune (ceea ce e cu adevarat surprinzator pentru Dragos). Doua lucruri cu adevarat neverosimile.
Nu mai sunt asa de multi bani in online? :D
P.S.: Dragos (Stanca), nu era mai bine daca in locul unui comunicat scris pe 4 pagini, cu explicatii comuniste si la misto, dadeai 3 randuri in care spuneai: am facut o campanie de link-building care ne-a permis ca, in baza continutului deja existent pe site – continut unic, sa crestem in relevanta? Uite ce frumos suna. Si cred ca ai fi castigat mai mult asa decat cu un document scris aiurea si in care e clar ca persoana care ti l-a compus nu prea avea idee despre ce vorbeste (pentru ca refuz sa cred ca l-ai scris tu). Mai mult, in loc sa explice, documentul va scuza. Ceea ce e si mai rau.
P.P.S.: am exclus din discutie Antena3 pentru ca ei chiar s-au trezit vorbind ca sa nu taca. Au 70.000 de pagini indexate in Google in momentul acesta, e clar ca ei nu sunt deranjati :D (iar pe antena1.ro am gasit aceasta informatie de mare angajament: Mafia1930. relevant!)
Concluzie: lumea a inceput sa isi curete site-urile. Mai apar scapari de genul “tag-ul a”, dar in general incepe sa se intample ceva. Ce? DESCOPERA LINKURILE!!!!!! si, implicit, link spamming. Intram intr-o noua era :D
Articolul de fata nu incearca sa ii “spele” pe cei de la realitatea. Nicidecum. Pune doar in ordine si completeaza cateva chestii. Poate ca la un moment dat vom avea acces la Bounce Rate-ul vizitatorilor din Google pe realitatea.net. Si cred ca cineva ar trebui sa explice tuturor celor din agentiile de publicitate si, mai ales, clientilor, de ce nu vrei sa cumperi publicitate pe un site unde vizitatorul intra si iese in 2 secunde. Dar asta alta data, intr-un alt post de blog.
Materialul a fost realizat cu ajutorul lui Razvan Antonescu, una din cele mai “murdare” minti pe care le cunosc in zona de SEO din Romania.

17 comentarii
kaynix
12 Februarie 2009 la 3:21 pm
smart post ;)
Napster
12 Februarie 2009 la 3:26 pm
Si ei acum vor zice “si ce daca”. :)
Vlad (Zeus)
12 Februarie 2009 la 5:26 pm
Foarte bine zis si total adevarat :)
ps. Felicitari pentru emisiunea de aseara cu baietii de la HB.
mihai
12 Februarie 2009 la 10:33 pm
bobby, razvan, multumesc pentru bataia de cap, sfaturi si idei – le analizam cu atentie si revenim cu feedback si, eventual, intrebari ;)
Spam-ul si robots.txt | Blogul lui Bobby Voicu - alpha beta version
12 Februarie 2009 la 11:38 pm
[...] si robots.txt Am scris pe capslock.ro o chestie despre discutiile din ultima vreme despre spam pe Google. No TweetBacks yet. (Be the [...]
imotube.ro
13 Februarie 2009 la 12:30 am
Noi tocmai astazi le-am sters din robots.txt dupa ce le-am blocat in ultimul an.
Apareau enervant, de ceva timp ca “Web crawl errors” in webmasters tools la sectiunea “URLs restricted by robots.txt”…
Dragoş Mănac » Blog Archive » Exploziva fasaiala
13 Februarie 2009 la 3:34 pm
[...] am aflat ca de fapt nu tag spammingul e noul spam, ci link building (multumesc Bobby Voicu) [...]
I. Leru
13 Februarie 2009 la 7:06 pm
Excelent post, sa speram ca tot raul va fi spre bine si ca cine a avut ceva de invatat, a invatat din aceasta disputa.
Zeus - knowledge database » Weekend wrap up
14 Februarie 2009 la 12:52 pm
[...] curs robots.txt by Bobby Voicu [...]
Spamerul
14 Februarie 2009 la 10:32 pm
site:bobbyvoicu.ro/-similar/
Un spam mai mic, dar si ala e spam si ar cere, conform instructiunilor, o noua linie in robots.txt.
kingquizz
15 Februarie 2009 la 10:53 am
Ce inteleg eu din articolul asta?
Toata lumea fura – unele site-uri in stil mare iar alte site-uri incearca sa intre pe un fagas normal.
bobby voicu
15 Februarie 2009 la 6:01 pm
@Spamerul: nu e chiar similar. La mine pe blog, daca dai pe un tag, chiar ai continut acolo relevant pentru tag-ul respectiv (eu nu am tag generat automat pentru cuvinte din DEX, cu pagini goale). In plus, eu nu am categorii vizibile, deci tag-urile chiar ajuta la orientare pe blog.
Mai mult, traficul meu e abismal su eu nu ma laud ca am trafic, castigand bani in consecinta.
Totusi, trebuia sa arati ca esti destept, nu? :) Nu ma deranjeaza observatia, ma deranjeaza ca nu vezi diferenta :)
Mihai Seceleanu » Blog Archive » la cererea publicului…
16 Februarie 2009 la 12:53 pm
[...] din totalul vizitelor – probabil ca ii dezamagesc cumplit pe cei care afirma ca de aici vine traficul 9AM. Si, pentru un ochi avizat care analizeaza raportul mai [...]
Radu Boncea Weblog » 9am.ro reloaded
16 Februarie 2009 la 5:33 pm
[...] De aceea nu înțeleg de ce pentru un trafic în plus de maxim 2%, permiți indexarea a 600.000 de pagini irelevante și duplicate, expunându-te riscului de a fi sancționat de google, când se poate onorabil interzice indexarea în robots.txt așa cum explică bobby voicu pe capslock.ro. [...]
Doar banii din publicitate sunt buni? » CAPSLOCK.ro
16 Februarie 2009 la 11:13 pm
[...] cum stiti (daca nu, cititi aici), in ultima saptamana lumea s-a ceartat in online. Motivatia, la suprafata, este corectitudinea cu [...]
» Noindex the Tags page can increase traffic up by 300%
27 Februarie 2009 la 9:41 pm
[...] about robots.txt and tag indexing read on capslock.ro (in romanian). Seo Bugz Get notified when I write Subscribe by RSS or [...]
misu
5 Martie 2009 la 10:04 pm
foarte multa lume face seo si linkbuilding, dar is destul de putin cei care is onesti … ravnirea pentru primele locuri in motorul de cautare…