memkompreneble

"Ekde kiam homoj la unuan fojon forlasis siajn kavernojn kaj renkontis aliulojn kun aliaj vidpunktoj kaj aliaj lingvoj ekzistas revo: mortigi ilin, por ke ni ne devu lerni ilian lingvon nek kompreni ilian vidpunkton." – citaĵo el la filmo "The Beast With a Billion Backs" de la usona tv-serio Futuramo – tiu ŝerco evidente celas al esperanto, ĉar en la sama filmo oni ankaŭ proponas senseksajn pronomojn "shklim" kaj "shkler" por la angla

Ĝentileco 2010-09-28

Filed under: raportoj — memkompreneble @ 15:45

La konduto de la roboto “memkompreneble” estas nun fine tiel ŝanĝita, ke ĝi obeas la ekskludajn regulojn de la robots.txt-standardo. Evidentiĝis, ke la aliro al multaj araneaj kaptiloj jam estas barita per tiaj ekskludaj reguloj.

La robots.txt-dosieroj de 6913 serviloj estas elŝutitaj ĝis nun, kaj ŝajnas ke 5255 el ili enhavas regulojn kiuj koncernas la roboton “memkompreneble” (ĉar ili verŝajne koncernas ĉiun roboton * …), tio egalas al ĉirkaŭ 76%.

La dataoj ricevitaj el la antaŭa araneado sen ĝentilecoobeado do ne fariĝos publike alireblaj, almenaŭ ne sen forfiltrado de malpermesitaj adresoj.

Cetere, la serĉado nun inkluzivas pliajn ligilojn. Antaŭe nur adresoj enhavantaj la signosekvojn “eo” aŭ “esp” aŭ “esperant” estis konsideritaj, sed nun la listo de permesoj enhavas multajn pliajn esprimojn kiuj ankaŭ trafas ne-esperantajn paĝojn kelkfoje. Por doni ekzemplojn: “lingv”, “ekze”, “kaj”, “internac”, “ejo”, “ujo”, ktp. Aldone, la ligilselekta strategio nun ankaŭ konsideras ĉiujn ligilojn en certa klak-distanco ĉirkaŭ tiaj esperant-aspektaj adresoj.

 

profundajn dankojn al granda fratego G. 2010-06-02

Filed under: ligiloj — memkompreneble @ 08:08

Mini la interreton pri sociaj informoj estas interesa afero. Kiuj ne emas droni en la inundeca amaso da sociaj retoj, blogoj, forumoj ktp, tiuj bezonas (eble sen scii tion) la aliron al la socia grafeo, kiun implikas la distribuitaj informoj pri “tio estas ankaŭ mi” kaj “jen mia amiko” en la plej diversaj retejoj. Tamen akcesi tiun informaron malfacilas, se oni ne scias kie serĉi. La granda serĉmaŝino komencanta per g nun ofertas eksperimentan version de t.n. Socia Grafeo API, kiu ebligas trovi tiajn konektojn aŭtomate. Ŝajnas ke ili ankoraŭ ne utiligas ĉiujn eblajn datumfontojn, ĉar multaj esperantaj ekzemploj, kiujn mi provis, ne liveris rezultojn.

Tamen jen hipoteza ekzemplo. Mi konas homon. Li diras al mi lian retpaĝan adreson, ekzemple “identi.ca/user/91841”. Mi volas trovi pliajn informojn pri la homo. Mi tajpas la sekvan adreson al mia foliumilo:

http://socialgraph.apis.google.com/lookup?pretty=1&fme=1&q=identi.ca/user/91841&edo=1&edi=1

La parametroj signifas: montru al mi ĉiujn “mi”-identecojn de la donita adreso kaj kelkajn kontaktojn kaj la rezulto aspektas tre uzebla por ĉirkaŭprogrami aplikaĵojn:

{
 "canonical_mapping": {
  "identi.ca/user/91841": "http://identi.ca/user/91841"
 },
 "nodes": {
  "http://identi.ca/nomoketo": {
   "attributes": {
   },
   "claimed_nodes": [
    "http://www.nomoketo.de/"
   ],
   "unverified_claiming_nodes": [
    "http://identi.ca/nomoketo?realtime\u003d1",
    "http://identi.ca/user/91841"
   ],
   "nodes_referenced": {
    "http://identi.ca/bottr": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/identica": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/raphaelm": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/reclaboxde": {
     "types": [
      "contact"
     ]
    },
    "http://www.nomoketo.de/": {
     "types": [
      "me"
     ]
    }
   },
   "nodes_referenced_by": {
    "http://identi.ca/bottr": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/nomoketo?realtime\u003d1": {
     "types": [
      "me"
     ]
    },
    "http://identi.ca/raphaelm": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/user/91841": {
     "types": [
      "me"
     ]
    }
   }
  },
  "http://identi.ca/user/91841": {
   "attributes": {
   },
   "claimed_nodes": [
    "http://identi.ca/nomoketo",
    "http://www.nomoketo.de/"
   ],
   "unverified_claiming_nodes": [
   ],
   "nodes_referenced": {
    "http://identi.ca/bottr": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/identica": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/nomoketo": {
     "types": [
      "me"
     ]
    },
    "http://identi.ca/raphaelm": {
     "types": [
      "contact"
     ]
    },
    "http://identi.ca/reclaboxde": {
     "types": [
      "contact"
     ]
    },
    "http://www.nomoketo.de/": {
     "types": [
      "me"
     ]
    }
   },
   "nodes_referenced_by": {
   }
  },
  "http://www.nomoketo.de/": {
   "attributes": {
   },
   "claimed_nodes": [
   ],
   "unverified_claiming_nodes": [
    "http://identi.ca/nomoketo",
    "http://identi.ca/user/91841",
    "http://twitter.com/nomoketo"
   ],
   "nodes_referenced": {
   },
   "nodes_referenced_by": {
    "http://identi.ca/nomoketo": {
     "types": [
      "me"
     ]
    },
    "http://identi.ca/user/91841": {
     "types": [
      "me"
     ]
    },
    "http://twitter.com/nomoketo": {
     "types": [
      "me"
     ]
    },
    "http://twitter2foaf.appspot.com/id/maxibimbi": {
     "types": [
      "contact"
     ]
    }
   }
  }
 }
}

Oni do povos en la estonto … do … multaj implikaĵoj pri privateco ktp. kaj multaj imageblaj utiligadokampoj kaj la aŭtoro eĉ ne certas ĉu ĉiuj eblaj utiloj estas vere dezirindaj. Aliflanke oni vidas ke la kvanto da informoj daŭre kreskas, do oni bezonos rimedojn por trakti tion, kaj ŝajnas ke granda G. faras paŝojn por daŭre ŝanĝi kiel homoj socie interagadas.

 

tradukmemoroj trovitaj 2010-05-23

Filed under: neenkategoriigitaj — memkompreneble @ 18:45

Hobiaj aŭ profesiaj tradukantoj eble konas la ideon de tradukmemoro kiu storas tradukojn por reuzo en aliaj projektoj. Krei tiajn tradukmemorojn el publike haveblaj tradukoj de esperantlingvaj dokumentoj en la interreto estis proponita kiel parta celo de la korpuskolektada projekto de la aŭtoro de ĉi tiu blogo, dum la ĉefa celo estis starigi laŭeble grandan kolekton de esperantlingvaj dokumentoj. Sekvante la evoluon de la malferma paralela korpusprojekto OPUS mi ĵus hieraŭ ekvidis ke nun haveblas pretaj dulingvaj TMX-oj kun esperanto kaj preskaŭ cent aliaj lingvoj, kreitaj el la internaciigaj mesaĝoj de la KDE4-surfaco. Tamen, indas kritike pritaksi ties kvaliton antaŭ ol ekuzado, ĉar ili ŝajnas aŭtomate kreitaj kaj enhavas multajn kontrolsimbolojn kaj aldonajn etikedojn uzitajn de KDE mem.

 

ais-sm-mapo 2010-04-22

Filed under: neenkategoriigitaj — memkompreneble @ 08:41

En la sekvaj bildoj oni vidas varie koloritajn versiojn de la mapo de la adresspaco de tricent tridek ses publike legeblaj retpaĝoj trovitaj ĉe http://www.ais-sanmarino.org ĝis nun.

Denove indas klarigi la avantaĝojn de tiaj mapoj. Plej simplas tio per nomi la malavantaĝojn de ordinara ĝisnuna retumado. Unue, en kutima foliumilo oni ne tuj ekvidas laŭ aspekto de retejo, kiomon da informoj ĝi vere enhavas, kaj kiel tiuj estas distribuitaj. Oni devas klaki ligilon, atendi elŝutadon, rigardi tiun novan dokumenton, traserĉi ĝin pri ligiloj al aliaj (supozeble) interesaj dokumentoj, kaj komenci tiun paŝon denove. Due, en kutimaj foliumiloj ne eblas statistiki pri ligiloj nek analizi strukturon de distribuo de ligiloj inter retejoj. Oni maksimume povas kolekti aron da favoritaj adresoj sed sen stori ties enhavon. Tio ligas al tri – trie do, multaj modernaj foliumiloj ne plu taŭgas por uzantoj kun interretkonekto multekosta, malrapida, ne-ĉiam-havebla, aŭ limigita alimaniere, ĉar ili ne sufiĉe storas kaj reuzas kopiojn de la elŝutitaj enhavoj. Supozeble la sekvonta generacio de foliumiloj devas respondi al ĉiuj ĉi problemoj, ĉar la interreto verŝajne ne ŝrumpos nek malaperos sed daŭre kreskegos kaj eksplodeme disvastiĝos.

 

ege-ege-ege 2010-03-24

Filed under: neenkategoriigitaj — memkompreneble @ 21:20

La sekva bildo montras frazan reton, kie ĉiu sago signifas okazon de la vorto “ege”, tiel ligante aliajn vortojn. Ju pli ofte la vorto trovita, des pli grande ĝi montrita. Se oni do vidas en la bildo ke multaj sagoj venas de la variaĵoj de la verbo “esti” signifas tio, ke antaŭ la vorteto “ege” prefere okazas esti. Renverse, multaj sagoj al “interese/interesa” signifas ke en tekstaro ofte estas skribita pri io ege interesa (almenaŭ laŭ opinio de skribinto).

(klaki bildon por ricevi tre grandan version)

fraza-reto-ege.gif

Pensante pri eblecoj kolorigi la mapojn venas kelkaj ideoj. Eblus laŭ gramatika finaĵo, laŭ ofteco de la vorto en ĝenerala vortaro (kombine kun la jam varia grandeco laŭ ofteco en la frazpartoj kun la liga esprimo, ĉi-kaze “ege”), aŭ eblus kolorigi laŭ alfabeta ordo, aŭ laŭ transitiveco, aŭ … mi ne scias plu. Ideojn iu bv.?

 

pliaj frazaj retoj

Filed under: raportoj — memkompreneble @ 19:12

Unua funkcio el la antaŭe menciita dezirlisto estas realigita nun, nome la variebla grandeco de la vortoj depende de la relativa frekvenco en la koncerna tekstaro. Ĉar oftaj vortoj aperas nun pli grandaj, oni povas pli bone vidi “el distanco” kaj tuj ekkompreni pri kio temas.

Alia notinda afero estas, ke ĝis nun mi nur montras la plej grandan konektitan komponanton de la fraza reto, nerigardante la aliajn malpligrandajn disajn/apartajn konektitajn komponantojn kun malpli da nodoj (… grafea teorio, parta kampo de la matematiko, okupiĝas pri tiaĵoj, kaj espereble malfermos vojojn por solvi tiun kaj la diversajn aliajn problemetojn). Kompare kun la ibomo-versio do ankoraŭ restas kelkaj farendaĵoj …

Tamen, sufiĉe vidinde, kaj denove la ekranfotoj ne povas transdoni tute tiun impreson, ĉar mankas la interageblo. Sed oni povas almenaŭ klaki la bildojn por ricevi pli grandajn do pli legeblajn versiojn (minimuma interageblo do).

testo-FrazaReto-'kia'.gif

testo-FrazaReto-'kial'.gif

testo-FrazaReto-'kion'-eltrancxo.gif

testo-FrazaReto-'kiuj'-eltrancxo.gif

testo-FrazaReto-'kiun'-eltrancxo.gif

testo-FrazaReto-'tro'.gif

 

frazaj retoj 2010-03-23

Filed under: raportoj — memkompreneble @ 20:05

En la sekvaj bildoj mi montras ke mi realigis komencan version de interfaco por mapigi tri-gramojn ĉirkaŭ liga vorto tiamaniere, ke sago inter x kaj y signifas ke ie en la tekstaro aperis la fraz(part)o “x [liga vorto] y”. Oni do povas tuj vidi, kiom ofte la liga vorto sekvas al kiuj vortoj kaj renverse, oni tuj vidas ĉu ekzistas “preferataj” vortoj antaŭ aŭ post la liga vorto, ktp.

Alklaki bildojn por pli granda versio, kie oni povas legi la mapon.

testo-fraza-reto-'ekster'.gif

testo-fraza-reto-'krom'.gif

testo-fraza-reto-'super'.gif

testo-fraza-reto-'dum'-la.gif

Imageblas multaj plibonigoj, ekz.e trakti ĉion kvazaŭ minuskle, forpreni punktecajn signojn, montri oftajn vortojn pli grande, montri oftajn konektojn pli dike, forfiltri trooftajn neŝanĝeblajn vortojn kaj tro maloftajn negravajn vortojn, pli bone selekti la fontan tekstaron por krei frazan reton, kaj multaj aliaj pensoj. Estus bone se oni povus selekti certan regionon el la ligilomapo aŭ el la adresspacmapo per musa gesto por krei la frazan reton el ĝuste la selektita maporegiono.

testo-fraza-reto-'dum'-la.gif

 

retumado 2010-03-13

Filed under: neenkategoriigitaj — memkompreneble @ 22:49

Denove umis mi pri retoj en la reto kaj trovis treege interesan projekton ĉe IBM, nome la Multajn Okulojn (angle: many eyes). Celo de tiu projekto estas “demokratiigi vidigadon kaj ebligi novan komunuman aliron al dataanalizado”, kaj la partprojekto specife interesa rilate al mia esperanto-korpusprojekteto estas la t.n. Fraza Reto (angle: phrase net). Aldone sekvas bildo por doni imagon pri kio temas.

Sekvos do baldaŭ tiaj frazaj retoj ankaŭ en esperanto. Leginte la resuman priskribon de la fraza reto mi supozas, ke ĝin eblos sen multe da peno implementi uzante la jamajn programaĵojn.

Kaj jen du pluaj ekranfotoj, ĉi-foje temas pri kaj adresspaco kaj ligilostrukturo de retejo ‘esperantisto.hu’, kie la nodoj estas koloritaj laŭ la enkodigo-indikilo trovita en la html-kapo de la koncerna dokumento.

01 - adresspaco 'esperantisto.hu' kolorita laux html-enkodigo-indiko.gif

02 - interligateco 'esperantisto.hu' kolorita laux html-enkodigo-indiko.gif

Cetere, mi ne havas imagon de kie venu la rimedoj por starigi publikan interfacon al la kolekto kaj dankas pro konsilaj komentoj.

 

reviga 2010-03-05

Filed under: neenkategoriigitaj — memkompreneble @ 19:58

Serĉante informojn pri eblaj manieroj vidigi grandajn kolektojn da datoj aliaj ol la nune uzata tiel nomata “prefuse visualization toolkit”, mi ĵus trovis “the interactorium” en vi-tubo kaj invitas ĉiujn rigardi la mallongan videon montrantan ties kapablecojn kaj revi pri futuro. La video mojose montras en nur kvin nekredeblaj minutoj ĉiujn la plej intimajn detalojn de gistoĉelo konatajn al hodiaŭa scienco. Ŝajnas ke fontokodoj de tiu (aŭ similaj) projekto(j) estas libere havebla(j). Indas do pripensadi adapteblojn por helpi korpusadon per iu simile futurisma interfaco.

 

pliaj araneaj retoj 2010-03-03

Filed under: raportoj — memkompreneble @ 20:11

Por starigi korpuson necesas kolektado de tekstoj. Tion faras roboto, tial necesas iel kontroli, kion ekzakte ĝi faras. Inter la kialoj por tia kontrolado troviĝas interalie la diversaj araneaj kaptiloj, kaj ankaŭ belemo, ĉar iu diru honeste al mi ke tiaj mapoj ne belas. Por pli bone vidi la kolektitajn dataojn, mia loka interfaco al la kontrolilo de roboto/datumbazo nun ricevis tujecan montrilon por mapoj kiel la subaj ekzemploj. Tamen estas tute alia afero krei interfacon por pluraj samtempaj uzantoj al la sama kolekto – bezonatas rapidega servilo kun multe da tre rapida memoro kaj kun larĝbenda konekto, kaj tio bedaŭrinde ankoraŭ ne estas havebla senpage.

Do jen kelkaj pliaj araneaj retoj. La bildoj montras nur ligilojn inter dokumentoj ene de sola retregiono. En la antaŭa blogero aperis la strukturo de la adresspaco, sed hodiaŭ mi anstataŭe montras la ligatecon inter dokumentoj.

Eblas klaki bildojn por vidi pli grandan version. Enkoditaj en la dosiernomoj estas la nomoj de la retejo, kies ligostrukturo videblas.

ligateco-de-retejo-'dunkerque.esperanto.free.fr'.gif

ligateco-de-retejo-'donh.best.vwh.net'.gif

ligateco-de-retejo-'esperanto-jeunes.org'.gif

ligateco-de-retejo-'bildoj.esperanto.de'.gif

ligateco-de-retejo-'esperantisto.hu'.gif

Kiel menciite, mi mem nun havas eblecon trarigardi tiajn arbojn (aŭ mapojn aŭ retojn aŭ vidigojn aŭ kiel-ajnojn) en realtempa interfaco, kie mi povas ŝovi branĉojn de la arbo per muso por reordigi, ludi kun la leĝoj de fiziko (gravito/repelo inter nodoj, longeco kaj forteco de risortoj, ktp), pligrandigi kaj malpligrandigi per musrado, kaj ktp plu. Tiel mi povas selekti retejon el la listo de pli ol mil konataj eo-retejoj en la datumbazo, por kontroli, kion trovis roboto, kaj, se necesas, repensi aranean politikon.

Tute sama interfaco estus senprobleme metebla en retpaĝon kiel java-applet aŭ elŝutebla kiel klienta programeto, sed ĝi devus poste konektiĝi kun la datumbazo (kion mi ĝis nun kolektis sur sola propra maŝino) aŭ krei lokan kopion de la bezonataj (tre multaj) dataoj por produkti tiajn mapojn.

(kontinuenda)