Press "Enter" to skip to content

GOV bot

1. Bot otwiera przykładową stronę gov.pl (oczywiście istnieje opcja wpisania innego adresu www, czyli startu od innej domeny) i skanuje ją.

Dzieli linki na wewnętrzne (gov.pl/*) i wychodzące (*gov.pl/* oraz *.pl/* , *com.pl/* itp.).

Sprawdza, czy linki mają atrybut rel=”*nofollow*” (nieprzydatne) czy „są dofollow” (dobre).

2. Linkom wewnętrznym z atrybutem dofollow (które „nie są nofollow”) nadaje wartość 0 (stopień oddalenia od strony głównej – zero kliknięć) i zapisuje je na liście gov_A0.

/web/gov/polityka-dotyczaca-cookies

0

https://www.gov.pl/web/koronawirus

0

3. Linkom wychodzącym z atrybutem dofollow (które „nie są nofollow”) nadaje wartość 0 (stopień oddalenia od strony głównej – zero kliknięć). Zapisze je zaraz na listach gov_B0 i gov_C0.

4. Linki wychodzące kierujące do *gov.pl/* (do subdomen gov.pl i ich podstron) zapisuje na liście gov_B0.

https://gis.gov.pl/aktualnosci/calodobowa-infolinia–nfz-o-koronawirusie/

0

5. Linki wychodzące do domen innych niż *gov.pl/* (czyli np. *.pl /*, *com.pl/* itp.) zapisuje na na liście gov_C0.

https://jakasdomena.pl/

0

https://innadomena.com/podstrona/

0

6. Bot bierze listę gov_A0 i otwiera każdą podstronę z osobna.

7. Skanuje daną podstronę, sprawdza atrybuty dofollow/nofollow linków.

8. Linkom wewnętrznym i wychodzącym nadaje wartość 1 (jedno kliknięcie od strony głównej).

9. Linki, które „nie są nofollow”, dopisuje odpowiednio do list gov_A1, gov_B1 i gov_C1.

A1 – linki wewnętrzne gov.pl/* ,

B1 – linki wychodzące do subdomen i ich podstron *gov.pl/* ,

C1 – linki wychodzące do domen innych niż *gov.pl/*

10. Listy te są wspólne dla wszystkich podstron sprawdzanych w tym etapie, dlatego rekordy będą się powtarzać, więc trzeba usunąć zduplikowane z list.

11. Bot bierze listę gov_A1 i otwiera każdą podstronę z osobna.

12. Skanuje daną podstronę, sprawdza atrybuty dofollow/nofollow linków.

13. Linkom wewnętrznym i wychodzącym nadaje wartość 2 (dwa kliknięcia od strony głównej).

14. Linki, które „nie są nofollow”, tylko „są dofollow”,dopisuje odpowiednio do list gov_A2, gov_B2 i gov_C2.

A2 – linki wewnętrzne gov.pl/* ,

B2 – linki wychodzące do subdomen i ich podstron *gov.pl/* ,

C2 – linki wychodzące do domen innych niż *gov.pl/*

15. Listy te są wspólne dla wszystkich podstron sprawdzanych w tym etapie, dlatego rekordy będą się powtarzać, więc trzeba usunąć zduplikowane z list.

Powiedzmy, że tu skończymy sprawdzanie strony gov.pl – „dwa kliknięcia” od strony głównej. Ale pewnie trzeba będzie drążyć głębiej. Możliwe, że będą potrzebne listy gov_A3, gov_B3, gov_C3 itd. z kolejnych „poziomów”.

16. Wykorzystaliśmy listy gov_A0 i gov_A1.

Teraz bierzemy listy gov_C0, gov_C1 i gov_C2. Trzeba je połączyć, zredukować adresy podstron do adresów domen (danadomena.pl/podstrona zredukować do danadomena.pl) i usunąć powtórzenia.

Taką nową listę linków wychodzących nazwiemy listą gov_D.

17. Linki znajdujące się na liście gov_D muszą zostać sprawdzone pod kątem tego, czy istnieją.

Szukamy nieaktywnych domen. Takich jak seo-faq.pl na poniższej grafice:

Status: -1 Not found: The server name or address could not be resolved

18. Domeny, które prawdopodobnie wygasły i nie są zarezerwowane, zapisujemy na liście LISTA-DOMEN, dostępnej w jakiejś formie np. z poziomu przeglądarki.

Wartości linków powinny się właśnie tam wyświetlać, żeby było wiadomo, jak głęboko jest dany link.

Opcja sortowania według wartości też byłaby super.

19. Wykorzystaliśmy listy gov_A0, gov_A1, gov_A2, gov_C0, gov_C1 i gov_C2. Teraz bierzemy listy gov_B0, gov_B1 i gov_B2.

Łączymy je, tworząc listę gov_E.

Redukujemy adresy podstron do adresów domen (domena.gov.pl/podstrona zredukować do domena.gov.pl).Usuwamy powtórzenia.

20. Utworzyliśmy w ten sposób listę subdomen gov.pl z linków, do jakich dotarliśmy.

Lista gov_E może wyglądać np. tak:

gis.gov.pl

0

75plus.mz.gov.pl

0

rcl.gov.pl

1

21. Bierzemy po kolei domeny z listy gov_E.

gis.gov.pl.

Skanujemy ją tak samo jak gov.pl.

Szukamy linków dofollow wewnętrznych i wychodzących.

Tworzymy listy z przedrostkiem gis, czyli np. gis_gov_A1, gis_gov_A2, gis_gov_A3

Dla75plus.mz.gov.pl tworzymy listy 75plus_mz_gov_A1, 75plus_mz_gov_A2, 75plus_mz_gov_A3 itp.

Tak samo jak w punkcie 17 szukamy nieaktywnych domen.

22. Jakoś to zatrzymujemy, żeby nie mieliło stron w nieskończoność, a z drugiej strony, żeby można było zacząć później od punktu, do którego doszliśmy i nie powtarzać wszystkiego od nowa. Fajna byłaby też opcja startowania od dowolnej domeny.

23. Jeżeli podczas sprawdzania w punkcie 17 i 21 jakiś link wychodzący dofollow jest aktywny (czyli strona nie mająca końcówki gov.pl istnieje), to go zapisujemy.

Potrzebny byłby też moduł sprawdzający linki w takiej domenie, do „drugiego kliknięcia”.

W skrócie:

startując z gov.pl, chcę dotrzeć do rcl.gov.pl/jakas-podstrona,

a stamtąd, powiedzmy, do orlen.pl,

gdzie na jakiejś podstronie jest link do wygasłej domeny, którą mogę kupić.

Oczywiście byłoby najfajniej znaleźć link do wygasłej domeny na *gov.pl* 🙂

A już w ogóle to fajnie byłoby móc startować od dowolnej domeny, nie tylko od gov.pl. Czyli np. wpisujemy pl.wikipedia.org i najpierw sprawdzamy „do drugiego kliknięcia” Wikipedię, potem jej subdomeny, potem linki wychodzące, potem linki na domenach zewnętrznych.

VN:F [1.9.22_1171]
Twoja ocena wpisu:
Rating: 5.0/5 (2 votes cast)
GOV bot, 5.0 / 5 , ocen: 2
Zawirowania po aktualizacji PageRank

Niezbadane są wyroki Google 🙂 Po zawirowaniach związanych z długo oczekiwaną aktualizacją PageRank, która nastąpiła na początku grudnia 2013 roku, Read more

Wstępny audyt SEO: Zagryzacz.pl

Siemka. (...) ruszyłem niedawno z blogiem na wordpressie i jak na razie trochę treści już mamy (...) ale (...) praktycznie Read more

WordPress SEO Yoast – konfiguracja c.d.

Małe niedopatrzenie podczas poprzedniej konfiguracji wtyczki WordPress SEO Yoast dało taki oto efekt (screen z Narzędzi dla webmasterów Google): Podwójne Read more

Be First to Comment

    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany.




    Wordpress Social Share Plugin powered by Ultimatelysocial