1. Bot otwiera przykładową stronę gov.pl (oczywiście istnieje opcja wpisania innego adresu www, czyli startu od innej domeny) i skanuje ją.
Dzieli linki na wewnętrzne (gov.pl/*) i wychodzące (*gov.pl/* oraz *.pl/* , *com.pl/* itp.).
Sprawdza, czy linki mają atrybut rel=”*nofollow*” (nieprzydatne) czy „są dofollow” (dobre).

2. Linkom wewnętrznym z atrybutem dofollow (które „nie są nofollow”) nadaje wartość 0 (stopień oddalenia od strony głównej – zero kliknięć) i zapisuje je na liście gov_A0.
/web/gov/polityka-dotyczaca-cookies
0
0
3. Linkom wychodzącym z atrybutem dofollow (które „nie są nofollow”) nadaje wartość 0 (stopień oddalenia od strony głównej – zero kliknięć). Zapisze je zaraz na listach gov_B0 i gov_C0.
4. Linki wychodzące kierujące do *gov.pl/* (do subdomen gov.pl i ich podstron) zapisuje na liście gov_B0.
0
5. Linki wychodzące do domen innych niż *gov.pl/* (czyli np. *.pl /*, *com.pl/* itp.) zapisuje na na liście gov_C0.
0
0
6. Bot bierze listę gov_A0 i otwiera każdą podstronę z osobna.
7. Skanuje daną podstronę, sprawdza atrybuty dofollow/nofollow linków.
8. Linkom wewnętrznym i wychodzącym nadaje wartość 1 (jedno kliknięcie od strony głównej).
9. Linki, które „nie są nofollow”, dopisuje odpowiednio do list gov_A1, gov_B1 i gov_C1.
A1 – linki wewnętrzne gov.pl/* ,
B1 – linki wychodzące do subdomen i ich podstron *gov.pl/* ,
C1 – linki wychodzące do domen innych niż *gov.pl/*
10. Listy te są wspólne dla wszystkich podstron sprawdzanych w tym etapie, dlatego rekordy będą się powtarzać, więc trzeba usunąć zduplikowane z list.
11. Bot bierze listę gov_A1 i otwiera każdą podstronę z osobna.
12. Skanuje daną podstronę, sprawdza atrybuty dofollow/nofollow linków.
13. Linkom wewnętrznym i wychodzącym nadaje wartość 2 (dwa kliknięcia od strony głównej).
14. Linki, które „nie są nofollow”, tylko „są dofollow”,dopisuje odpowiednio do list gov_A2, gov_B2 i gov_C2.
A2 – linki wewnętrzne gov.pl/* ,
B2 – linki wychodzące do subdomen i ich podstron *gov.pl/* ,
C2 – linki wychodzące do domen innych niż *gov.pl/*
15. Listy te są wspólne dla wszystkich podstron sprawdzanych w tym etapie, dlatego rekordy będą się powtarzać, więc trzeba usunąć zduplikowane z list.
Powiedzmy, że tu skończymy sprawdzanie strony gov.pl – „dwa kliknięcia” od strony głównej. Ale pewnie trzeba będzie drążyć głębiej. Możliwe, że będą potrzebne listy gov_A3, gov_B3, gov_C3 itd. z kolejnych „poziomów”.
16. Wykorzystaliśmy listy gov_A0 i gov_A1.
Teraz bierzemy listy gov_C0, gov_C1 i gov_C2. Trzeba je połączyć, zredukować adresy podstron do adresów domen (danadomena.pl/podstrona zredukować do danadomena.pl) i usunąć powtórzenia.
Taką nową listę linków wychodzących nazwiemy listą gov_D.
17. Linki znajdujące się na liście gov_D muszą zostać sprawdzone pod kątem tego, czy istnieją.
Szukamy nieaktywnych domen. Takich jak seo-faq.pl na poniższej grafice:

Status: -1 Not found: The server name or address could not be resolved
18. Domeny, które prawdopodobnie wygasły i nie są zarezerwowane, zapisujemy na liście LISTA-DOMEN, dostępnej w jakiejś formie np. z poziomu przeglądarki.
Wartości linków powinny się właśnie tam wyświetlać, żeby było wiadomo, jak głęboko jest dany link.
Opcja sortowania według wartości też byłaby super.
19. Wykorzystaliśmy listy gov_A0, gov_A1, gov_A2, gov_C0, gov_C1 i gov_C2. Teraz bierzemy listy gov_B0, gov_B1 i gov_B2.
Łączymy je, tworząc listę gov_E.
Redukujemy adresy podstron do adresów domen (domena.gov.pl/podstrona zredukować do domena.gov.pl).Usuwamy powtórzenia.
20. Utworzyliśmy w ten sposób listę subdomen gov.pl z linków, do jakich dotarliśmy.
Lista gov_E może wyglądać np. tak:
gis.gov.pl
0
75plus.mz.gov.pl
0
rcl.gov.pl
1
21. Bierzemy po kolei domeny z listy gov_E.
gis.gov.pl.
Skanujemy ją tak samo jak gov.pl.
Szukamy linków dofollow wewnętrznych i wychodzących.
Tworzymy listy z przedrostkiem gis, czyli np. gis_gov_A1, gis_gov_A2, gis_gov_A3
Dla75plus.mz.gov.pl tworzymy listy 75plus_mz_gov_A1, 75plus_mz_gov_A2, 75plus_mz_gov_A3 itp.
Tak samo jak w punkcie 17 szukamy nieaktywnych domen.
22. Jakoś to zatrzymujemy, żeby nie mieliło stron w nieskończoność, a z drugiej strony, żeby można było zacząć później od punktu, do którego doszliśmy i nie powtarzać wszystkiego od nowa. Fajna byłaby też opcja startowania od dowolnej domeny.
23. Jeżeli podczas sprawdzania w punkcie 17 i 21 jakiś link wychodzący dofollow jest aktywny (czyli strona nie mająca końcówki gov.pl istnieje), to go zapisujemy.
Potrzebny byłby też moduł sprawdzający linki w takiej domenie, do „drugiego kliknięcia”.
W skrócie:
startując z gov.pl, chcę dotrzeć do rcl.gov.pl/jakas-podstrona,
a stamtąd, powiedzmy, do orlen.pl,
gdzie na jakiejś podstronie jest link do wygasłej domeny, którą mogę kupić.
Oczywiście byłoby najfajniej znaleźć link do wygasłej domeny na *gov.pl* 🙂
A już w ogóle to fajnie byłoby móc startować od dowolnej domeny, nie tylko od gov.pl. Czyli np. wpisujemy pl.wikipedia.org i najpierw sprawdzamy „do drugiego kliknięcia” Wikipedię, potem jej subdomeny, potem linki wychodzące, potem linki na domenach zewnętrznych.
GOV bot,
Be First to Comment