memkompreneble

"Ekde kiam homoj la unuan fojon forlasis siajn kavernojn kaj renkontis aliulojn kun aliaj vidpunktoj kaj aliaj lingvoj ekzistas revo: mortigi ilin, por ke ni ne devu lerni ilian lingvon nek kompreni ilian vidpunkton." – citaĵo el la filmo "The Beast With a Billion Backs" de la usona tv-serio Futuramo – tiu ŝerco evidente celas al esperanto, ĉar en la sama filmo oni ankaŭ proponas senseksajn pronomojn "shklim" kaj "shkler" por la angla

aranea politiko 2010-01-09

Filed under: neenkategoriigitaj — memkompreneble @ 02:15

En la angla lingvo oni konas multajn nomojn por tiaj programoj, kiuj foliumas en la interreto sen homa leganto. La laŭsencaj tradukoj estas iaj tiaj: roboto, trarampilo, retaraneo, serĉ’boto, aŭtomata indeksilo, retŝutilo, kaj tiaj plu.

La metaforo de la araneo venas de la ideo, ke eta programeto etendas siajn multajn brakojn por kovri la reton, tial la reta araneo, do retaraneo. Ĉefe la ideo estas krei lokan kopion de subkolekto de la tuttera teksaĵo, por kio ajn celo. Ekzemplaj utiloj povas esti: statistikado, trovado de eraroj, minado de informoj, indeksado por rapidaj serĉoj, kaj aliaj.

Pro la apenaŭ imagebla grandeco de la interreto kun multaj miliardoj da dokumentoj, ĝenerala roboto bezonas certajn antaŭdifinitjan politikojn por gvidi la trarampadon de la reto, por suĉi laŭeble plejmultajn deziratajn enhavojn kaj por eviti laŭeble nedeziratajn enhavojn. Temas pri la sekvaj politikoj:

  • politiko de selektado – kiajn ligilojn sekvi kaj kiajn ne sekvi
  • politiko de revizitado – kiom ofte kaj kiam reviziti ligilojn por noti ŝanĝiĝojn
  • politiko de ĝentileco – kiel eviti trouzon de retejoj do kiom da tempo inter alvokoj
  • politiko de paraleligo – kiel mastrumi paralelajn instancojn de la  roboto

Por konstrui la novan eo-korpuson menciitan en antaŭa blogero, per simplaj vortoj la politikoj jenas:

  • selektu ĉiujn ligilojn de retejoj kiuj enhavas senkopirajtajn (post homa kontrolo de ĉefpaĝo de retejoj) esperantolingvaĵojn kaj evitu kelkajn evidente evitindajn formojn de ligiloj ekz.e kun seanca identigilo aŭ simile, kelkfoje prefere sekvu novajn ligilojn, kelkfoje prefere sekvu malnovajn ligilojn, kelkfoje sekvu ligiglojn laŭ alfabeta sekvo, tiaj malsamaj serĉstrategioj validu dum malsamlongaj tempointervaloj,
  • tute ne revizitu ligilojn (krom kelkfoje post ŝanĝoj de la fontokodo de la roboto aŭ de la datumbazo kiuj necesigas novan dataformaton aŭ ial tial),
  • tute ne estu ĝentila – sed tio ne signifas neĝentilecon – simple signifas ke la frekvenco de alvokoj ne tiom grandas kaj la uzita bendlarĝo estas maksimume 64kbit/s, iaj plendoj pri trouzo do dubendus (endus pridubi, ja nur temas pri la sola bendo, plue ne 24/7, sed iom kiom 12/5),
  • tute ne estu paralela – tio evitas kapdolorojn dum programado, ajnakaze la bendlarĝo ne taŭgus por multe pli ol sola araneeto, tamen laŭteorie eblus paraleligo ĉar la datumbazo devus ja esti sufiĉe skalebla

Efike, la roboto trarampas araneece la reton kaj elŝutas kaj indeksas prefere esperantlingvajn dokumentojn plus sufiĉe da malpurigoj, nome alilingvaj dokumentoj, duoblitaj dokumentoj (kelkfoje kun nur etetaj ŝanĝoj), malbone enkoditaj dokumentoj, kaj tiaĵoj plu. Jam dum kelkaj semajnoj.

Se iu retejestro do miras pri aplikaĵo nomata memkomprenebleBot en la logoj de sia servilo, temas verŝajne a) pri la trarampilo por kolekti kolekton de libere kolekteblaj esperantaĵoj por nekomercaj esplorceloj, aŭ b) pri iu imitanto.

 

One Response to “aranea politiko”

  1. […] la ĝisnuna robotado liveris troan kvanton da multoblaĵoj. Por starigi novan kolekton, la araneaj politikoj de selektado kaj revizitado estas iomete ŝanĝitaj, kaj la iloj por produkti aŭtomatajn raportojn […]


Respondi

Entajpu viajn informojn sube aŭ alklaku piktogramon por ensaluti:

WordPress.com Logo

Vi komentas per via konto de WordPress.com. Elsaluti /  Ŝanĝi )

Twitter picture

Vi komentas per via konto de Twitter. Elsaluti /  Ŝanĝi )

Facebook photo

Vi komentas per via konto de Facebook. Elsaluti /  Ŝanĝi )

Connecting to %s