memkompreneble

"Ekde kiam homoj la unuan fojon forlasis siajn kavernojn kaj renkontis aliulojn kun aliaj vidpunktoj kaj aliaj lingvoj ekzistas revo: mortigi ilin, por ke ni ne devu lerni ilian lingvon nek kompreni ilian vidpunkton." – citaĵo el la filmo "The Beast With a Billion Backs" de la usona tv-serio Futuramo – tiu ŝerco evidente celas al esperanto, ĉar en la sama filmo oni ankaŭ proponas senseksajn pronomojn "shklim" kaj "shkler" por la angla

Ĝentileco 2010-09-28

Filed under: raportoj — memkompreneble @ 15:45

La konduto de la roboto “memkompreneble” estas nun fine tiel ŝanĝita, ke ĝi obeas la ekskludajn regulojn de la robots.txt-standardo. Evidentiĝis, ke la aliro al multaj araneaj kaptiloj jam estas barita per tiaj ekskludaj reguloj.

La robots.txt-dosieroj de 6913 serviloj estas elŝutitaj ĝis nun, kaj ŝajnas ke 5255 el ili enhavas regulojn kiuj koncernas la roboton “memkompreneble” (ĉar ili verŝajne koncernas ĉiun roboton * …), tio egalas al ĉirkaŭ 76%.

La dataoj ricevitaj el la antaŭa araneado sen ĝentilecoobeado do ne fariĝos publike alireblaj, almenaŭ ne sen forfiltrado de malpermesitaj adresoj.

Cetere, la serĉado nun inkluzivas pliajn ligilojn. Antaŭe nur adresoj enhavantaj la signosekvojn “eo” aŭ “esp” aŭ “esperant” estis konsideritaj, sed nun la listo de permesoj enhavas multajn pliajn esprimojn kiuj ankaŭ trafas ne-esperantajn paĝojn kelkfoje. Por doni ekzemplojn: “lingv”, “ekze”, “kaj”, “internac”, “ejo”, “ujo”, ktp. Aldone, la ligilselekta strategio nun ankaŭ konsideras ĉiujn ligilojn en certa klak-distanco ĉirkaŭ tiaj esperant-aspektaj adresoj.

 

pliaj frazaj retoj 2010-03-24

Filed under: raportoj — memkompreneble @ 19:12

Unua funkcio el la antaŭe menciita dezirlisto estas realigita nun, nome la variebla grandeco de la vortoj depende de la relativa frekvenco en la koncerna tekstaro. Ĉar oftaj vortoj aperas nun pli grandaj, oni povas pli bone vidi “el distanco” kaj tuj ekkompreni pri kio temas.

Alia notinda afero estas, ke ĝis nun mi nur montras la plej grandan konektitan komponanton de la fraza reto, nerigardante la aliajn malpligrandajn disajn/apartajn konektitajn komponantojn kun malpli da nodoj (… grafea teorio, parta kampo de la matematiko, okupiĝas pri tiaĵoj, kaj espereble malfermos vojojn por solvi tiun kaj la diversajn aliajn problemetojn). Kompare kun la ibomo-versio do ankoraŭ restas kelkaj farendaĵoj …

Tamen, sufiĉe vidinde, kaj denove la ekranfotoj ne povas transdoni tute tiun impreson, ĉar mankas la interageblo. Sed oni povas almenaŭ klaki la bildojn por ricevi pli grandajn do pli legeblajn versiojn (minimuma interageblo do).

testo-FrazaReto-'kia'.gif

testo-FrazaReto-'kial'.gif

testo-FrazaReto-'kion'-eltrancxo.gif

testo-FrazaReto-'kiuj'-eltrancxo.gif

testo-FrazaReto-'kiun'-eltrancxo.gif

testo-FrazaReto-'tro'.gif

 

frazaj retoj 2010-03-23

Filed under: raportoj — memkompreneble @ 20:05

En la sekvaj bildoj mi montras ke mi realigis komencan version de interfaco por mapigi tri-gramojn ĉirkaŭ liga vorto tiamaniere, ke sago inter x kaj y signifas ke ie en la tekstaro aperis la fraz(part)o “x [liga vorto] y”. Oni do povas tuj vidi, kiom ofte la liga vorto sekvas al kiuj vortoj kaj renverse, oni tuj vidas ĉu ekzistas “preferataj” vortoj antaŭ aŭ post la liga vorto, ktp.

Alklaki bildojn por pli granda versio, kie oni povas legi la mapon.

testo-fraza-reto-'ekster'.gif

testo-fraza-reto-'krom'.gif

testo-fraza-reto-'super'.gif

testo-fraza-reto-'dum'-la.gif

Imageblas multaj plibonigoj, ekz.e trakti ĉion kvazaŭ minuskle, forpreni punktecajn signojn, montri oftajn vortojn pli grande, montri oftajn konektojn pli dike, forfiltri trooftajn neŝanĝeblajn vortojn kaj tro maloftajn negravajn vortojn, pli bone selekti la fontan tekstaron por krei frazan reton, kaj multaj aliaj pensoj. Estus bone se oni povus selekti certan regionon el la ligilomapo aŭ el la adresspacmapo per musa gesto por krei la frazan reton el ĝuste la selektita maporegiono.

testo-fraza-reto-'dum'-la.gif

 

pliaj araneaj retoj 2010-03-03

Filed under: raportoj — memkompreneble @ 20:11

Por starigi korpuson necesas kolektado de tekstoj. Tion faras roboto, tial necesas iel kontroli, kion ekzakte ĝi faras. Inter la kialoj por tia kontrolado troviĝas interalie la diversaj araneaj kaptiloj, kaj ankaŭ belemo, ĉar iu diru honeste al mi ke tiaj mapoj ne belas. Por pli bone vidi la kolektitajn dataojn, mia loka interfaco al la kontrolilo de roboto/datumbazo nun ricevis tujecan montrilon por mapoj kiel la subaj ekzemploj. Tamen estas tute alia afero krei interfacon por pluraj samtempaj uzantoj al la sama kolekto – bezonatas rapidega servilo kun multe da tre rapida memoro kaj kun larĝbenda konekto, kaj tio bedaŭrinde ankoraŭ ne estas havebla senpage.

Do jen kelkaj pliaj araneaj retoj. La bildoj montras nur ligilojn inter dokumentoj ene de sola retregiono. En la antaŭa blogero aperis la strukturo de la adresspaco, sed hodiaŭ mi anstataŭe montras la ligatecon inter dokumentoj.

Eblas klaki bildojn por vidi pli grandan version. Enkoditaj en la dosiernomoj estas la nomoj de la retejo, kies ligostrukturo videblas.

ligateco-de-retejo-'dunkerque.esperanto.free.fr'.gif

ligateco-de-retejo-'donh.best.vwh.net'.gif

ligateco-de-retejo-'esperanto-jeunes.org'.gif

ligateco-de-retejo-'bildoj.esperanto.de'.gif

ligateco-de-retejo-'esperantisto.hu'.gif

Kiel menciite, mi mem nun havas eblecon trarigardi tiajn arbojn (aŭ mapojn aŭ retojn aŭ vidigojn aŭ kiel-ajnojn) en realtempa interfaco, kie mi povas ŝovi branĉojn de la arbo per muso por reordigi, ludi kun la leĝoj de fiziko (gravito/repelo inter nodoj, longeco kaj forteco de risortoj, ktp), pligrandigi kaj malpligrandigi per musrado, kaj ktp plu. Tiel mi povas selekti retejon el la listo de pli ol mil konataj eo-retejoj en la datumbazo, por kontroli, kion trovis roboto, kaj, se necesas, repensi aranean politikon.

Tute sama interfaco estus senprobleme metebla en retpaĝon kiel java-applet aŭ elŝutebla kiel klienta programeto, sed ĝi devus poste konektiĝi kun la datumbazo (kion mi ĝis nun kolektis sur sola propra maŝino) aŭ krei lokan kopion de la bezonataj (tre multaj) dataoj por produkti tiajn mapojn.

(kontinuenda)

 

vidigo de reteja adresspaco 2010-02-21

Filed under: raportoj — memkompreneble @ 20:08

Kiam mi informiĝis pri la temo, mi trovis ke ŝajne ekzistas studoj pri la memsimileco de la interreto (simple tajpu “self-similarity in the web” ĉe via preferita serĉilo por ankaŭ trovi tiajn studojn), kaj rigardante la adresaron de sola retejo ŝajne jam pravigas tion.

Jen rigardo al la strukturo de la retejo http://www.esperanto-nb.de/ (eblas klaki por vidi iomete pli grandan version).

Jen kelkaj bildoj de la strukturo de la adresspaco de dokumentoj ĉe http://www.esperanto.de videblas sube.

[Redaktita:]

Parolinte pri tio al kelkuloj vidalvide mi nur trovis nekredemon kaj nekomprenon. Do por ricevi pli bonan imagon pri kio temas, simple pensu pri la dosier-strukturo sur via komputilo. Ekzistas radika nodo, kutime “desktop” aŭ simile, kaj ceteraj nodoj havas patron alian ol si mem kaj povas enhavi subnodojn se temas pri dosierujo, alikaze temas pri folioj de la dosier-arbo. La vindoza esplorilo (kaj plejmulto de dosierstrukturvidigiloj) montras arbon, kie oni povas fermi kaj malfermi branĉojn, “ŝovi” branĉojn al alia loko (eltranĉi k. alglui), ktp, sed ĉiam en la konata arbo-formato. Nun imagu ke oni ne montras idojn de nodoj unu sub la alia en listo, sed anstataŭe ordigas ilin dudimensie (aŭ iam eĉ tridimensie) ĉirkaŭ la patra nodo. Nun la ligo inter patro kaj ido ne plu estas ordinara “ido sub patro”-rilato sed linio aŭ sago. Tiun linion eblas trakti kiel stabo aŭ risorto, kaj la nodoj povas altiri/repeli unu la alian per gravita aŭ alia forto.

Metaforo por komprenigi tiun efikon estas kutimaj arboj kiel ili kreskas ekstere (aŭ kelkfoje eĉ ene…). La “forto” kiu interrepelas la branĉojn unu de la alia estas simple la “premo” de la folioj kiuj “puŝas” por trovi plejbonan lokon por ricevi sunlumon (aŭ sekon kaze de radikoj aŭ kion ajn la nodoj favoras) kombinita kun gravito kaj kun la vaste akceptita postulo, ke du objektoj ne povas okupi la saman lokon dum la sama momento. Rezulto de la tuta afero estas la fraktaleco observebla ĉie ajn en naturaj retoj – ekzemple riveroj, la sangocirkulada sistemo, neŭronaj retoj.

 

tuttekstara taksado per venkinta validigilo 2010-02-03

Filed under: raportoj — memkompreneble @ 12:27

Taksis tutan kolekton de segmentoj per la pivkap-taksilo menciita en antaŭa blogero pri eo-validigiloj kaj ĉi-sekve donas rezultan mallongan raporton.

segmentoj en la db     :     715'509
akceptitaj segmentoj   :     108'366
ties suma longeco      :   9'720'715
kaj averagxa longeco   :          89
neakceptitaj segmentoj :     607'143
ties suma longeco      : 105'035'472
kaj averagxa longeco   :         172
uzebla parto de la segmentaro laux longeco :   8,471 %
uzebla parto laux kvanto de segmentoj      :  15,145 %

Ekvidinte tion mi komence pensis ke temas pri iomete aĉa rezulto de malpli ol 10MB da esperantaĵoj. Tamen, pri la kolekto de segmentoj notindas kelkaj aferoj.

Unue, ke la segmentado daŭre estas fuŝita kaj ofte ne rekonas bonajn segmentlimojn aŭ kungluas vortojn inter kiuj estis pluraj spacigaj signoj. Segmentado estis komence nur celita al latinidaj skribsistemoj, sed la kolekto enhavas preskaŭ ĉion imageblan, inkl. ekz. paralelaj tekstoj kie unu duono estas en esperanto kaj la alia en japana, araba, cirila; aŭ fremdlingvaj frazoj kun enkrampe kelkaj vortoj en esperanto, plus multaj mikslingvaj klarigoj el la plejdiversaj enretaj esperantokursoj. Cetere, ne ĉiuj dokumentoj kiujn liveris la trarampilroboto estas segmentitaj. Aldone, en la kolekto ĝis nun ne aperas dokumentoj de multaj kopirajtitaj retejoj. Kaj fine, la taksilo pivkap estas treege konservativa kaj akceptas preskaŭ nur frazojn kun la vortprovizo de la plena ilustrita vortaro. Ĝi tre verŝajne ne akceptas x-sistemon, h-sistemon, ^-sistemon kaj aliajn sistemojn, sed mankas signifohavaj testoj pri tio. Konklude eblas diri, ke tiu intermeza rezulto estas ĝuste tio: intermeza.

 

komparo de eo-validigiloj 2010-01-28

Filed under: raportoj — memkompreneble @ 16:40

Per la rekonilo priskribita en la antaŭa artikolo rekoni-kandidatajn-esperantovortojn, kaj per dua variaĵo de tio, kaj per rekonilo bazita sur la aro de unikaj radikoj aperantaj en la plena ilustrita vortaro kiel priskribita en la antaŭa artikolo pri-la-listo-de-piv-kapvortoj mi faris serion de testoj kontraŭ aro de segmentoj, kies lingvon mi antaŭe kontrolis okulumante ilin. Post la sekva mallonga raporto venas aldonaj klarigoj.

taksilo : RadikadoVortaro
sukcesaj akceptoj     :  475 (480)
nesukcesaj akceptoj   :    5 (480)
sukcesaj neakceptoj   :  183 (448)
nesukcesaj neakceptoj :  265 (448)
sukceskvoto eo        :   98,958 %
sukceskvoto ne-eo     :   40,848 %
sukceskvoto entute    :   70,905 %
sukceskvoto akceptoj  :   64,189 %

taksilo : PivKap
sukcesaj akceptoj     :  413 (480)
nesukcesaj akceptoj   :   67 (480)
sukcesaj neakceptoj   :  448 (448)
nesukcesaj neakceptoj :    0 (448)
sukceskvoto eo        :   86,042 %
sukceskvoto ne-eo     :  100,000 %
sukceskvoto entute    :   92,780 %
sukceskvoto akceptoj  :  100,000 %

taksilo : TaksiloFinajxoj
sukcesaj akceptoj     :  464 (480)
nesukcesaj akceptoj   :   16 (480)
sukcesaj neakceptoj   :  417 (448)
nesukcesaj neakceptoj :   31 (448)
sukceskvoto eo        :   96,667 %
sukceskvoto ne-eo     :   93,080 %
sukceskvoto entute    :   94,935 %
sukceskvoto akceptoj  :   93,737 %

La testaro konsistas el du apartaj aroj de identigaj numeroj de segmentoj. La unua aro enhavas segmentojn kiuj definitive estas validaj frazoj en la internacia lingvo esperanto kaj nomiĝas “konataj_eo_segmentoj” kaj aperas en la supra raporto kiel “akceptoj”, do la segmentoj kiujn la validigiloj devus akcepti. La dua aro enhavas segmentojn kiuj definitive ne estas validaj frazoj en esperanto, ĉar ili apartenas al aliaj lingvoj kiel la angla, nederlanda, germana, franca, dana, hispana, ido, latina, portugala, italiana, kaj aliaj, kaj nomiĝas “konataj_ne_eo_segmentoj” kaj aperas en la supra raporto kiel “neakceptoj” ĉar la validigiloj ne akceptu ilin.

“Sukcesa akcepto” signifas ke fakte esperantlingva segmento estis akceptita de la validigilo, dum “sukcesa neakcepto” signifas ke fremdlingva segmento estis bone malakceptita, kaj inverse je la nesukcesaj.

kvoto_eo = sukces_akcept / [konataj_eo_segmentoj]
kvoto_ne_eo = sukces_neakcept / [konataj_ne_eo_segmentoj]
kvoto_entute = (sukces_akcept + sukces_neakcept) / ([konataj_eo_segmentoj] + [konataj_ne_eo_segmentoj])
kvoto_akceptoj = sukces_akcept / (sukces_akcept + nesukces_neakcept)

La plej grava kvalitomezuro evidente estas la lasta, ĉar ne gravas kiom multaj ja validaj eo-frazoj tamen estas malakceptitaj, se nur plejeble multaj de la akceptitaj frazoj vere estas en esperanto anstataŭ iu fremda lingvo.

La tri testitaj validigiloj estis la sekvaj: RadikadoVortaro (mallonge rad), PivKap (mallonge por listo de kapvortoj de plena ilustrita vortaro), TaksiloFinajxo (mallonge taks). Ĉiuj tri uzas la saman metodon por subsegmenti frazojn, nome per dividado ĉe ĉiuj spacigaj signoj ene de frazo. La difino por vortoj estas, ke ili estu ne nulaj kaj havu longecon nenulan. La poentoj donitaj al sola frazo estas la averaĝo de la poentoj donitaj al ĉiuj subsegmentoj (do vortoj) per la malsamaj validigiloj. Akcepto okazos super certa limvaloro, alikaze, se frazo ne atingis tian minimumon da poentoj, sekvas malakcepto.

Validigilo rad komence konstruas vortaron de ĉiuj unikaj vortformoj aperantaj en la kolekto de segmentoj kongruantaj kun la esperanto-alfabeto kiel priskribita en antaŭa artikolo purigi-segmentojn. Por doni poentojn al sola vorto, rad provas radikigi la vorton per laŭsistema aplikado de eblaj afiksoj de la formo [funkcia silabo] + [fleksia finaĵo] kaj poste redonas la kvanton de aliaj vortformoj de la plenformvortaro kiu ankaŭ redukteblas al la sama radiko. Aldonaj poentojn ricevas vortoj kiuj enhavas specifajn ĉapelitajn literojn.

Validigilo pivkap komence konstruas liston de plenaj vortformoj aperantaj en la PIV, poste liston de radikoj ricevitaj per forpreno de fleksiaj finaĵoj. Altajn poentojn ricevas tiuj vortoj, kiuj tutsame aperas en la PIV, malpli altajn poentojn ricevas tiuj kies radiko aperas en la radikolisto, kaj aldonajn poentojn ricevas vortoj kun ĉapelitaĵoj.

Validigilo taks nur uzas mallongan liston de neŝanĝeblaj esperanto-vortoj kaj liston de fleksiaj finaĵoj kun poentvaloroj asociitaj kun ĉiu finaĵo, tiel ke -ajn kaj -ojn ricevas tre altajn poentojn, aliaj finaĵoj ricevas mezajn poentojn samkiel neŝanĝeblaj eo-vortoj, malaltajn poentojn ricevas finaĵoj kiel -i, -e, -o kaj -a kiuj aperas ankaŭ en multaj aliaj lingvoj, kaj negativajn poentojn ricevas vortoj sen laŭregula finaĵo. Aldonajn poentojn denove ricevas vortoj kun ĉapelitaĵoj.

Gajninto de la testo ĝis nun: la metodo laŭ PIV kapvortoj. Bedaŭrinde ke ĝi tamen malakceptas multajn validajn frazojn.

du apartaj aroj