Taksis tutan kolekton de segmentoj per la pivkap-taksilo menciita en antaŭa blogero pri eo-validigiloj kaj ĉi-sekve donas rezultan mallongan raporton.
segmentoj en la db : 715'509 akceptitaj segmentoj : 108'366 ties suma longeco : 9'720'715 kaj averagxa longeco : 89 neakceptitaj segmentoj : 607'143 ties suma longeco : 105'035'472 kaj averagxa longeco : 172 uzebla parto de la segmentaro laux longeco : 8,471 % uzebla parto laux kvanto de segmentoj : 15,145 %
Ekvidinte tion mi komence pensis ke temas pri iomete aĉa rezulto de malpli ol 10MB da esperantaĵoj. Tamen, pri la kolekto de segmentoj notindas kelkaj aferoj.
Unue, ke la segmentado daŭre estas fuŝita kaj ofte ne rekonas bonajn segmentlimojn aŭ kungluas vortojn inter kiuj estis pluraj spacigaj signoj. Segmentado estis komence nur celita al latinidaj skribsistemoj, sed la kolekto enhavas preskaŭ ĉion imageblan, inkl. ekz. paralelaj tekstoj kie unu duono estas en esperanto kaj la alia en japana, araba, cirila; aŭ fremdlingvaj frazoj kun enkrampe kelkaj vortoj en esperanto, plus multaj mikslingvaj klarigoj el la plejdiversaj enretaj esperantokursoj. Cetere, ne ĉiuj dokumentoj kiujn liveris la trarampilroboto estas segmentitaj. Aldone, en la kolekto ĝis nun ne aperas dokumentoj de multaj kopirajtitaj retejoj. Kaj fine, la taksilo pivkap estas treege konservativa kaj akceptas preskaŭ nur frazojn kun la vortprovizo de la plena ilustrita vortaro. Ĝi tre verŝajne ne akceptas x-sistemon, h-sistemon, ^-sistemon kaj aliajn sistemojn, sed mankas signifohavaj testoj pri tio. Konklude eblas diri, ke tiu intermeza rezulto estas ĝuste tio: intermeza.