Kelkaj rete publikigitaj studoj pri robotado sugestas, ke oni resolvu dns-adresojn de retejoj por eviti multoblajn elŝutojn, kiam pluraj nomoj celas al la sama dns-adreso. Por enkorpigi tion en mian roboteton necesis tute reskribi ĝin, kaj ĝi ricevis novan datumbazon por reflekti la ŝanĝojn koncerne la resolvado de dns. Jen sekvas eta ekzemplo por komprenigi la problemon:
dns_id | dns_kreita | dns_ip | autoritato | autoritato_id | autoritato_kreita |
9 | 13.02.10 13:00 | 85.119.155.88 | esperantoland.de | 143 | 13.02.10 13:44 |
9 | 13.02.10 13:00 | 85.119.155.88 | esperantoland.org | 91 | 13.02.10 13:13 |
9 | 13.02.10 13:00 | 85.119.155.88 | http://www.esperantoland.de | 10 | 13.02.10 13:00 |
9 | 13.02.10 13:00 | 85.119.155.88 | http://www.esperantoland.org | 7 | 13.02.10 13:00 |
9 | 13.02.10 13:00 | 85.119.155.88 | wwww.esperantoland.org | 461 | 13.02.10 15:55 |
54 | 13.02.10 13:30 | 87.229.73.20 | agei.esperanto-urbo.de | 526 | 13.02.10 16:14 |
54 | 13.02.10 13:30 | 87.229.73.20 | esperanto-urbo.de | 117 | 13.02.10 13:30 |
54 | 13.02.10 13:30 | 87.229.73.20 | gek-eek.esperanto-urbo.de | 264 | 13.02.10 13:53 |
54 | 13.02.10 13:30 | 87.229.73.20 | http://www.esperanto-urbo.de | 444 | 13.02.10 15:53 |
55 | 13.02.10 13:30 | 69.55.231.167 | emozaika.info | 248 | 13.02.10 13:52 |
55 | 13.02.10 13:30 | 69.55.231.167 | en.lernu.net | 203 | 13.02.10 13:50 |
55 | 13.02.10 13:30 | 69.55.231.167 | esperanto.ca | 367 | 13.02.10 14:35 |
55 | 13.02.10 13:30 | 69.55.231.167 | ikso.net | 245 | 13.02.10 13:52 |
55 | 13.02.10 13:30 | 69.55.231.167 | http://www.esperanto.ca | 182 | 13.02.10 13:50 |
55 | 13.02.10 13:30 | 69.55.231.167 | http://www.esperanto.info | 118 | 13.02.10 13:30 |
98 | 13.02.10 13:50 | 91.121.139.57 | esperanto-jeunes.org | 327 | 13.02.10 14:20 |
98 | 13.02.10 13:50 | 91.121.139.57 | festo.esperanto-jeunes.org | 371 | 13.02.10 14:40 |
98 | 13.02.10 13:50 | 91.121.139.57 | francilio.org | 302 | 13.02.10 14:07 |
98 | 13.02.10 13:50 | 91.121.139.57 | ikurso.esperanto-jeunes.org | 181 | 13.02.10 13:50 |
98 | 13.02.10 13:50 | 91.121.139.57 | http://www.esperanto-jeunes.org | 183 | 13.02.10 13:50 |
98 | 13.02.10 13:50 | 91.121.139.57 | http://www.ikurso.esperanto-jeunes.org | 392 | 13.02.10 14:57 |
111 | 13.02.10 13:50 | 38.113.1.151 | esperanto-usa.org | 321 | 13.02.10 14:16 |
111 | 13.02.10 13:50 | 38.113.1.151 | esperantousa.hypermart.net | 330 | 13.02.10 14:21 |
111 | 13.02.10 13:50 | 38.113.1.151 | ttt.esperanto-usa.org | 395 | 13.02.10 14:57 |
111 | 13.02.10 13:50 | 38.113.1.151 | http://www.esperanto-usa.org | 201 | 13.02.10 13:50 |
Plejofte la dokumentstrukturo estas tute la sama, sendepende de la nomo de la retejo (egalas al parto nomata ‘aŭtoritato’ de la url). Cetere, nova strategio de ligilo-selektado nun estas uzata, kiu ne plu kontrolas ke ligiloj troviĝu en aro de certaj antaŭdifinitaj retejoj, sed nun nur kontrolas ke la adreso de la ligilo enhavas la vorton esperanto. Strategio povas ŝanĝiĝi kiam ne plu troveblas sufiĉa kvanto de novaj dokumentoj per la aktuala strategio. Rezultoj de sekva trarampado estos eble kompareblaj kun antaŭaj rezultoj por eltrovi ŝanĝemajn dokumentojn kies enhavo estis ŝanĝita ekde la lasta vizito.
[…] 2010-02-19 Arkivita sub: 1 — memkompreneble @ 12:12 Kiel menciita en la antaŭa blogero pri dns-resolvado, la ĝisnuna robotado liveris troan kvanton da multoblaĵoj. Por starigi novan kolekton, la araneaj […]