memkompreneble

"Ekde kiam homoj la unuan fojon forlasis siajn kavernojn kaj renkontis aliulojn kun aliaj vidpunktoj kaj aliaj lingvoj ekzistas revo: mortigi ilin, por ke ni ne devu lerni ilian lingvon nek kompreni ilian vidpunkton." – citaĵo el la filmo "The Beast With a Billion Backs" de la usona tv-serio Futuramo – tiu ŝerco evidente celas al esperanto, ĉar en la sama filmo oni ankaŭ proponas senseksajn pronomojn "shklim" kaj "shkler" por la angla

tuttekstara taksado per venkinta validigilo 2010-02-03

Filed under: raportoj — memkompreneble @ 12:27

Taksis tutan kolekton de segmentoj per la pivkap-taksilo menciita en antaŭa blogero pri eo-validigiloj kaj ĉi-sekve donas rezultan mallongan raporton.

segmentoj en la db     :     715'509
akceptitaj segmentoj   :     108'366
ties suma longeco      :   9'720'715
kaj averagxa longeco   :          89
neakceptitaj segmentoj :     607'143
ties suma longeco      : 105'035'472
kaj averagxa longeco   :         172
uzebla parto de la segmentaro laux longeco :   8,471 %
uzebla parto laux kvanto de segmentoj      :  15,145 %

Ekvidinte tion mi komence pensis ke temas pri iomete aĉa rezulto de malpli ol 10MB da esperantaĵoj. Tamen, pri la kolekto de segmentoj notindas kelkaj aferoj.

Unue, ke la segmentado daŭre estas fuŝita kaj ofte ne rekonas bonajn segmentlimojn aŭ kungluas vortojn inter kiuj estis pluraj spacigaj signoj. Segmentado estis komence nur celita al latinidaj skribsistemoj, sed la kolekto enhavas preskaŭ ĉion imageblan, inkl. ekz. paralelaj tekstoj kie unu duono estas en esperanto kaj la alia en japana, araba, cirila; aŭ fremdlingvaj frazoj kun enkrampe kelkaj vortoj en esperanto, plus multaj mikslingvaj klarigoj el la plejdiversaj enretaj esperantokursoj. Cetere, ne ĉiuj dokumentoj kiujn liveris la trarampilroboto estas segmentitaj. Aldone, en la kolekto ĝis nun ne aperas dokumentoj de multaj kopirajtitaj retejoj. Kaj fine, la taksilo pivkap estas treege konservativa kaj akceptas preskaŭ nur frazojn kun la vortprovizo de la plena ilustrita vortaro. Ĝi tre verŝajne ne akceptas x-sistemon, h-sistemon, ^-sistemon kaj aliajn sistemojn, sed mankas signifohavaj testoj pri tio. Konklude eblas diri, ke tiu intermeza rezulto estas ĝuste tio: intermeza.

 

Komenti