Per la rekonilo priskribita en la antaŭa artikolo rekoni-kandidatajn-esperantovortojn, kaj per dua variaĵo de tio, kaj per rekonilo bazita sur la aro de unikaj radikoj aperantaj en la plena ilustrita vortaro kiel priskribita en la antaŭa artikolo pri-la-listo-de-piv-kapvortoj mi faris serion de testoj kontraŭ aro de segmentoj, kies lingvon mi antaŭe kontrolis okulumante ilin. Post la sekva mallonga raporto venas aldonaj klarigoj.
taksilo : RadikadoVortaro sukcesaj akceptoj : 475 (480) nesukcesaj akceptoj : 5 (480) sukcesaj neakceptoj : 183 (448) nesukcesaj neakceptoj : 265 (448) sukceskvoto eo : 98,958 % sukceskvoto ne-eo : 40,848 % sukceskvoto entute : 70,905 % sukceskvoto akceptoj : 64,189 % taksilo : PivKap sukcesaj akceptoj : 413 (480) nesukcesaj akceptoj : 67 (480) sukcesaj neakceptoj : 448 (448) nesukcesaj neakceptoj : 0 (448) sukceskvoto eo : 86,042 % sukceskvoto ne-eo : 100,000 % sukceskvoto entute : 92,780 % sukceskvoto akceptoj : 100,000 % taksilo : TaksiloFinajxoj sukcesaj akceptoj : 464 (480) nesukcesaj akceptoj : 16 (480) sukcesaj neakceptoj : 417 (448) nesukcesaj neakceptoj : 31 (448) sukceskvoto eo : 96,667 % sukceskvoto ne-eo : 93,080 % sukceskvoto entute : 94,935 % sukceskvoto akceptoj : 93,737 %
La testaro konsistas el du apartaj aroj de identigaj numeroj de segmentoj. La unua aro enhavas segmentojn kiuj definitive estas validaj frazoj en la internacia lingvo esperanto kaj nomiĝas “konataj_eo_segmentoj” kaj aperas en la supra raporto kiel “akceptoj”, do la segmentoj kiujn la validigiloj devus akcepti. La dua aro enhavas segmentojn kiuj definitive ne estas validaj frazoj en esperanto, ĉar ili apartenas al aliaj lingvoj kiel la angla, nederlanda, germana, franca, dana, hispana, ido, latina, portugala, italiana, kaj aliaj, kaj nomiĝas “konataj_ne_eo_segmentoj” kaj aperas en la supra raporto kiel “neakceptoj” ĉar la validigiloj ne akceptu ilin.
“Sukcesa akcepto” signifas ke fakte esperantlingva segmento estis akceptita de la validigilo, dum “sukcesa neakcepto” signifas ke fremdlingva segmento estis bone malakceptita, kaj inverse je la nesukcesaj.
kvoto_eo = sukces_akcept / [konataj_eo_segmentoj] kvoto_ne_eo = sukces_neakcept / [konataj_ne_eo_segmentoj] kvoto_entute = (sukces_akcept + sukces_neakcept) / ([konataj_eo_segmentoj] + [konataj_ne_eo_segmentoj]) kvoto_akceptoj = sukces_akcept / (sukces_akcept + nesukces_neakcept)
La plej grava kvalitomezuro evidente estas la lasta, ĉar ne gravas kiom multaj ja validaj eo-frazoj tamen estas malakceptitaj, se nur plejeble multaj de la akceptitaj frazoj vere estas en esperanto anstataŭ iu fremda lingvo.
La tri testitaj validigiloj estis la sekvaj: RadikadoVortaro (mallonge rad), PivKap (mallonge por listo de kapvortoj de plena ilustrita vortaro), TaksiloFinajxo (mallonge taks). Ĉiuj tri uzas la saman metodon por subsegmenti frazojn, nome per dividado ĉe ĉiuj spacigaj signoj ene de frazo. La difino por vortoj estas, ke ili estu ne nulaj kaj havu longecon nenulan. La poentoj donitaj al sola frazo estas la averaĝo de la poentoj donitaj al ĉiuj subsegmentoj (do vortoj) per la malsamaj validigiloj. Akcepto okazos super certa limvaloro, alikaze, se frazo ne atingis tian minimumon da poentoj, sekvas malakcepto.
Validigilo rad komence konstruas vortaron de ĉiuj unikaj vortformoj aperantaj en la kolekto de segmentoj kongruantaj kun la esperanto-alfabeto kiel priskribita en antaŭa artikolo purigi-segmentojn. Por doni poentojn al sola vorto, rad provas radikigi la vorton per laŭsistema aplikado de eblaj afiksoj de la formo [funkcia silabo] + [fleksia finaĵo] kaj poste redonas la kvanton de aliaj vortformoj de la plenformvortaro kiu ankaŭ redukteblas al la sama radiko. Aldonaj poentojn ricevas vortoj kiuj enhavas specifajn ĉapelitajn literojn.
Validigilo pivkap komence konstruas liston de plenaj vortformoj aperantaj en la PIV, poste liston de radikoj ricevitaj per forpreno de fleksiaj finaĵoj. Altajn poentojn ricevas tiuj vortoj, kiuj tutsame aperas en la PIV, malpli altajn poentojn ricevas tiuj kies radiko aperas en la radikolisto, kaj aldonajn poentojn ricevas vortoj kun ĉapelitaĵoj.
Validigilo taks nur uzas mallongan liston de neŝanĝeblaj esperanto-vortoj kaj liston de fleksiaj finaĵoj kun poentvaloroj asociitaj kun ĉiu finaĵo, tiel ke -ajn kaj -ojn ricevas tre altajn poentojn, aliaj finaĵoj ricevas mezajn poentojn samkiel neŝanĝeblaj eo-vortoj, malaltajn poentojn ricevas finaĵoj kiel -i, -e, -o kaj -a kiuj aperas ankaŭ en multaj aliaj lingvoj, kaj negativajn poentojn ricevas vortoj sen laŭregula finaĵo. Aldonajn poentojn denove ricevas vortoj kun ĉapelitaĵoj.
Gajninto de la testo ĝis nun: la metodo laŭ PIV kapvortoj. Bedaŭrinde ke ĝi tamen malakceptas multajn validajn frazojn.
[…] memkompreneble @ 12:27 Taksis tutan kolekton de segmentoj per la pivkap-taksilo menciita en antaŭa blogero pri eo-validigiloj kaj ĉi-sekve donas rezultan mallongan […]
La samon mi vidas okulumante. Tial mi emas demandi: por kio utilas la validigilo? Temas pri aplikeblo.
Kelkaj aŭtomataj procezoj devas “scii” ekzakte pri la lingvo de la traktita teksto. Se aŭtomata vortariga procezo “volas” taŭgi por novaj tekstoj kiuj antaŭe ne estis konataj, ĝi devas certi ke temas pri esperanto, por ne envenu fremdlingvaj malpuraĵoj en la vortarojn de tiuj procezoj. Pravi pri divenita lingvo de donita nova frazo malfacilas, ĉar multaj vortformoj aperas ankaŭ en aliaj lingvoj kaj cetere povas okazi ke homoj inventis al vi novajn vortetojn kiel na/ri/ŝli, neologismojn, a ŭ e ĉ t i a j n ĉ i a p e n a ŭ l e g e b l a ĵ o j n, Ma1-1ong-ig-ojn, Proprajn Nomojn (el ĉiuj imageblaj skribsistemoj), kaj ktp plu ĝisnaŭzege … Do tre indas havi taksilon kiu trafe estimas ĉu donita frazo aspektas kvazaŭ ĝi povus esti skribita en esperanto, por malhelpi la malbonajn frazojn interrompi analizadon de la ja bonaj.