memkompreneble

"Ekde kiam homoj la unuan fojon forlasis siajn kavernojn kaj renkontis aliulojn kun aliaj vidpunktoj kaj aliaj lingvoj ekzistas revo: mortigi ilin, por ke ni ne devu lerni ilian lingvon nek kompreni ilian vidpunkton." – citaĵo el la filmo "The Beast With a Billion Backs" de la usona tv-serio Futuramo – tiu ŝerco evidente celas al esperanto, ĉar en la sama filmo oni ankaŭ proponas senseksajn pronomojn "shklim" kaj "shkler" por la angla

Ĝentileco 2010-09-28

Filed under: raportoj — memkompreneble @ 15:45

La konduto de la roboto “memkompreneble” estas nun fine tiel ŝanĝita, ke ĝi obeas la ekskludajn regulojn de la robots.txt-standardo. Evidentiĝis, ke la aliro al multaj araneaj kaptiloj jam estas barita per tiaj ekskludaj reguloj.

La robots.txt-dosieroj de 6913 serviloj estas elŝutitaj ĝis nun, kaj ŝajnas ke 5255 el ili enhavas regulojn kiuj koncernas la roboton “memkompreneble” (ĉar ili verŝajne koncernas ĉiun roboton * …), tio egalas al ĉirkaŭ 76%.

La dataoj ricevitaj el la antaŭa araneado sen ĝentilecoobeado do ne fariĝos publike alireblaj, almenaŭ ne sen forfiltrado de malpermesitaj adresoj.

Cetere, la serĉado nun inkluzivas pliajn ligilojn. Antaŭe nur adresoj enhavantaj la signosekvojn “eo” aŭ “esp” aŭ “esperant” estis konsideritaj, sed nun la listo de permesoj enhavas multajn pliajn esprimojn kiuj ankaŭ trafas ne-esperantajn paĝojn kelkfoje. Por doni ekzemplojn: “lingv”, “ekze”, “kaj”, “internac”, “ejo”, “ujo”, ktp. Aldone, la ligilselekta strategio nun ankaŭ konsideras ĉiujn ligilojn en certa klak-distanco ĉirkaŭ tiaj esperant-aspektaj adresoj.

 

profundajn dankojn al granda fratego G. 2010-06-02

Filed under: ligiloj — memkompreneble @ 08:08

Mini la interreton pri sociaj informoj estas interesa afero. Kiuj ne emas droni en la inundeca amaso da sociaj retoj, blogoj, forumoj ktp, tiuj bezonas (eble sen scii tion) la aliron al la socia grafeo, kiun implikas la distribuitaj informoj pri “tio estas ankaŭ mi” kaj “jen mia amiko” en la plej diversaj retejoj. Tamen akcesi tiun informaron malfacilas, se oni ne scias kie serĉi. La granda serĉmaŝino komencanta per g nun ofertas eksperimentan version de t.n. Socia Grafeo API, kiu ebligas trovi tiajn konektojn aŭtomate. Ŝajnas ke ili ankoraŭ ne utiligas ĉiujn eblajn datumfontojn, ĉar multaj esperantaj ekzemploj, kiujn mi provis, ne liveris rezultojn.

Tamen jen hipoteza ekzemplo. Mi konas homon. Li diras al mi lian retpaĝan adreson, ekzemple “identi.ca/user/91841”. Mi volas trovi pliajn informojn pri la homo. Mi tajpas la sekvan adreson al mia foliumilo:

http://socialgraph.apis.google.com/lookup?pretty=1&fme=1&q=identi.ca/user/91841&edo=1&edi=1

La parametroj signifas: montru al mi ĉiujn “mi”-identecojn de la donita adreso kaj kelkajn kontaktojn kaj la rezulto aspektas tre uzebla por ĉirkaŭprogrami aplikaĵojn:

{
 "canonical_mapping": {
  "identi.ca/user/91841": "http://identi.ca/user/91841"
 },
 "nodes": {
  "http://identi.ca/nomoketo": {
   "attributes": {
   },
   "claimed_nodes": [
    "http://www.nomoketo.de/"
   ],
   "unverified_claiming_nodes": [
    "http://identi.ca/nomoketo?realtime\u003d1",
    "http://identi.ca/user/91841"
   ],
   "nodes_referenced": {
    "http://identi.ca/bottr": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/identica": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/raphaelm": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/reclaboxde": {
     "types": [
      "contact"
     ]
    },
    "http://www.nomoketo.de/": {
     "types": [
      "me"
     ]
    }
   },
   "nodes_referenced_by": {
    "http://identi.ca/bottr": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/nomoketo?realtime\u003d1": {
     "types": [
      "me"
     ]
    },
    "http://identi.ca/raphaelm": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/user/91841": {
     "types": [
      "me"
     ]
    }
   }
  },
  "http://identi.ca/user/91841": {
   "attributes": {
   },
   "claimed_nodes": [
    "http://identi.ca/nomoketo",
    "http://www.nomoketo.de/"
   ],
   "unverified_claiming_nodes": [
   ],
   "nodes_referenced": {
    "http://identi.ca/bottr": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/identica": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/nomoketo": {
     "types": [
      "me"
     ]
    },
    "http://identi.ca/raphaelm": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/reclaboxde": {
     "types": [
      "contact"
     ]
    },
    "http://www.nomoketo.de/": {
     "types": [
      "me"
     ]
    }
   },
   "nodes_referenced_by": {
   }
  },
  "http://www.nomoketo.de/": {
   "attributes": {
   },
   "claimed_nodes": [
   ],
   "unverified_claiming_nodes": [
    "http://identi.ca/nomoketo",
    "http://identi.ca/user/91841",
    "http://twitter.com/nomoketo"
   ],
   "nodes_referenced": {
   },
   "nodes_referenced_by": {
    "http://identi.ca/nomoketo": {
     "types": [
      "me"
     ]
    },
    "http://identi.ca/user/91841": {
     "types": [
      "me"
     ]
    },
    "http://twitter.com/nomoketo": {
     "types": [
      "me"
     ]
    },
    "http://twitter2foaf.appspot.com/id/maxibimbi": {
     "types": [
      "contact"
     ]
    }
   }
  }
 }
}

Oni do povos en la estonto … do … multaj implikaĵoj pri privateco ktp. kaj multaj imageblaj utiligadokampoj kaj la aŭtoro eĉ ne certas ĉu ĉiuj eblaj utiloj estas vere dezirindaj. Aliflanke oni vidas ke la kvanto da informoj daŭre kreskas, do oni bezonos rimedojn por trakti tion, kaj ŝajnas ke granda G. faras paŝojn por daŭre ŝanĝi kiel homoj socie interagadas.

 

tradukmemoroj trovitaj 2010-05-23

Filed under: neenkategoriigitaj — memkompreneble @ 18:45

Hobiaj aŭ profesiaj tradukantoj eble konas la ideon de tradukmemoro kiu storas tradukojn por reuzo en aliaj projektoj. Krei tiajn tradukmemorojn el publike haveblaj tradukoj de esperantlingvaj dokumentoj en la interreto estis proponita kiel parta celo de la korpuskolektada projekto de la aŭtoro de ĉi tiu blogo, dum la ĉefa celo estis starigi laŭeble grandan kolekton de esperantlingvaj dokumentoj. Sekvante la evoluon de la malferma paralela korpusprojekto OPUS mi ĵus hieraŭ ekvidis ke nun haveblas pretaj dulingvaj TMX-oj kun esperanto kaj preskaŭ cent aliaj lingvoj, kreitaj el la internaciigaj mesaĝoj de la KDE4-surfaco. Tamen, indas kritike pritaksi ties kvaliton antaŭ ol ekuzado, ĉar ili ŝajnas aŭtomate kreitaj kaj enhavas multajn kontrolsimbolojn kaj aldonajn etikedojn uzitajn de KDE mem.

 

ais-sm-mapo 2010-04-22

Filed under: neenkategoriigitaj — memkompreneble @ 08:41

En la sekvaj bildoj oni vidas varie koloritajn versiojn de la mapo de la adresspaco de tricent tridek ses publike legeblaj retpaĝoj trovitaj ĉe http://www.ais-sanmarino.org ĝis nun.

Denove indas klarigi la avantaĝojn de tiaj mapoj. Plej simplas tio per nomi la malavantaĝojn de ordinara ĝisnuna retumado. Unue, en kutima foliumilo oni ne tuj ekvidas laŭ aspekto de retejo, kiomon da informoj ĝi vere enhavas, kaj kiel tiuj estas distribuitaj. Oni devas klaki ligilon, atendi elŝutadon, rigardi tiun novan dokumenton, traserĉi ĝin pri ligiloj al aliaj (supozeble) interesaj dokumentoj, kaj komenci tiun paŝon denove. Due, en kutimaj foliumiloj ne eblas statistiki pri ligiloj nek analizi strukturon de distribuo de ligiloj inter retejoj. Oni maksimume povas kolekti aron da favoritaj adresoj sed sen stori ties enhavon. Tio ligas al tri – trie do, multaj modernaj foliumiloj ne plu taŭgas por uzantoj kun interretkonekto multekosta, malrapida, ne-ĉiam-havebla, aŭ limigita alimaniere, ĉar ili ne sufiĉe storas kaj reuzas kopiojn de la elŝutitaj enhavoj. Supozeble la sekvonta generacio de foliumiloj devas respondi al ĉiuj ĉi problemoj, ĉar la interreto verŝajne ne ŝrumpos nek malaperos sed daŭre kreskegos kaj eksplodeme disvastiĝos.

 

ege-ege-ege 2010-03-24

Filed under: neenkategoriigitaj — memkompreneble @ 21:20

La sekva bildo montras frazan reton, kie ĉiu sago signifas okazon de la vorto “ege”, tiel ligante aliajn vortojn. Ju pli ofte la vorto trovita, des pli grande ĝi montrita. Se oni do vidas en la bildo ke multaj sagoj venas de la variaĵoj de la verbo “esti” signifas tio, ke antaŭ la vorteto “ege” prefere okazas esti. Renverse, multaj sagoj al “interese/interesa” signifas ke en tekstaro ofte estas skribita pri io ege interesa (almenaŭ laŭ opinio de skribinto).

(klaki bildon por ricevi tre grandan version)

fraza-reto-ege.gif

Pensante pri eblecoj kolorigi la mapojn venas kelkaj ideoj. Eblus laŭ gramatika finaĵo, laŭ ofteco de la vorto en ĝenerala vortaro (kombine kun la jam varia grandeco laŭ ofteco en la frazpartoj kun la liga esprimo, ĉi-kaze “ege”), aŭ eblus kolorigi laŭ alfabeta ordo, aŭ laŭ transitiveco, aŭ … mi ne scias plu. Ideojn iu bv.?

 

pliaj frazaj retoj

Filed under: raportoj — memkompreneble @ 19:12

Unua funkcio el la antaŭe menciita dezirlisto estas realigita nun, nome la variebla grandeco de la vortoj depende de la relativa frekvenco en la koncerna tekstaro. Ĉar oftaj vortoj aperas nun pli grandaj, oni povas pli bone vidi “el distanco” kaj tuj ekkompreni pri kio temas.

Alia notinda afero estas, ke ĝis nun mi nur montras la plej grandan konektitan komponanton de la fraza reto, nerigardante la aliajn malpligrandajn disajn/apartajn konektitajn komponantojn kun malpli da nodoj (… grafea teorio, parta kampo de la matematiko, okupiĝas pri tiaĵoj, kaj espereble malfermos vojojn por solvi tiun kaj la diversajn aliajn problemetojn). Kompare kun la ibomo-versio do ankoraŭ restas kelkaj farendaĵoj …

Tamen, sufiĉe vidinde, kaj denove la ekranfotoj ne povas transdoni tute tiun impreson, ĉar mankas la interageblo. Sed oni povas almenaŭ klaki la bildojn por ricevi pli grandajn do pli legeblajn versiojn (minimuma interageblo do).

testo-FrazaReto-'kia'.gif

testo-FrazaReto-'kial'.gif

testo-FrazaReto-'kion'-eltrancxo.gif

testo-FrazaReto-'kiuj'-eltrancxo.gif

testo-FrazaReto-'kiun'-eltrancxo.gif

testo-FrazaReto-'tro'.gif

 

frazaj retoj 2010-03-23

Filed under: raportoj — memkompreneble @ 20:05

En la sekvaj bildoj mi montras ke mi realigis komencan version de interfaco por mapigi tri-gramojn ĉirkaŭ liga vorto tiamaniere, ke sago inter x kaj y signifas ke ie en la tekstaro aperis la fraz(part)o “x [liga vorto] y”. Oni do povas tuj vidi, kiom ofte la liga vorto sekvas al kiuj vortoj kaj renverse, oni tuj vidas ĉu ekzistas “preferataj” vortoj antaŭ aŭ post la liga vorto, ktp.

Alklaki bildojn por pli granda versio, kie oni povas legi la mapon.

testo-fraza-reto-'ekster'.gif

testo-fraza-reto-'krom'.gif

testo-fraza-reto-'super'.gif

testo-fraza-reto-'dum'-la.gif

Imageblas multaj plibonigoj, ekz.e trakti ĉion kvazaŭ minuskle, forpreni punktecajn signojn, montri oftajn vortojn pli grande, montri oftajn konektojn pli dike, forfiltri trooftajn neŝanĝeblajn vortojn kaj tro maloftajn negravajn vortojn, pli bone selekti la fontan tekstaron por krei frazan reton, kaj multaj aliaj pensoj. Estus bone se oni povus selekti certan regionon el la ligilomapo aŭ el la adresspacmapo per musa gesto por krei la frazan reton el ĝuste la selektita maporegiono.

testo-fraza-reto-'dum'-la.gif