memkompreneble

"Ekde kiam homoj la unuan fojon forlasis siajn kavernojn kaj renkontis aliulojn kun aliaj vidpunktoj kaj aliaj lingvoj ekzistas revo: mortigi ilin, por ke ni ne devu lerni ilian lingvon nek kompreni ilian vidpunkton." – citaĵo el la filmo "The Beast With a Billion Backs" de la usona tv-serio Futuramo – tiu ŝerco evidente celas al esperanto, ĉar en la sama filmo oni ankaŭ proponas senseksajn pronomojn "shklim" kaj "shkler" por la angla

du aliaj korpusoj, fakte nur unu 2010-01-02

Filed under: neenkategoriigitaj — memkompreneble @ 20:23
Tags:

Mi ĵus trovis ke jam ekzistas projekto kun ekzakte samaj celoj, nome krei eo-korpuson. Indas baldaŭ elŝuti kaj trarigardi la fontokodojn … Tamen ili anoncas sur la projektpaĝo ke ili uzas pretajn trarampilomodulojn … povus certe ŝpari manlaboran penon tiel, sed ĉu tiaj iloj vere pli bone kapablos trakti generitajn paĝarojn ol miaj memfaritaĵoj? Ni vidos. Iel ajn, ŝajne nur temas pri iloj por krei korpuson, ne pri korpuso mem – simila progreso kiel ĉi tie do …

Cetere, lige kun tiu antaŭa trovo okazis dua trovo: ja pli granda korpuso jam ekzistas en danio, tamen ankaŭ kopirajtita kaj ŝajne nur alirebla per la interfaco sur la retpaĝo kaj ne elŝutebla entute. Kaj en la publikaĵoj kiujn mi ĵus supraĵe tralegis oni ne multon mencias pri la kolektado sed ĉefe pri la procezado de la tekstoj. La kolekto enhavas la “korpuson de esperanto” kiun mi antaŭe jam menciis, do fakte temas daŭre nur pri unu menciinda korpuso konata al mi

Almenaŭ bona ideo estas uzi na la Google API por trovi aldonajn retpaĝojn, sed se uzata por semado oni verŝajne trafos tro malmultajn retregionojn kun sola aŭ nur kelkaj paĝoj en esperanto kaj kun la vasta majoritato en alia(j) lingvo(j). Menciante tion, ankaŭ indas mencii ke rekoni la lingvon de dokumentoj restas problemo – verŝajne ne solvebla, ĉar ofte aperas la tiel nomata lingva gulaŝo, kiam intermiksitaj frazoj el aliaj lingvoj malpurigas dokumenton.

Ŝajnas pli senchava unue purigi skriptaĵojn kaj etikedadon, poste segmenti la poluritan tekston laŭ heŭristika regularo, poste taksi la lingvecon de la segmentenhavoj per pluraj specialaj lingvorekoniloj kaj doni probablecojn. Okazos ripetaĵoj de pluroble la samaj segmentoj, kaj en samaj kaj en malsamaj dokumentoj. Ekzemple ĉe blogejoj aŭ aliaj generitaj retejoj ofte aperos segmentoj kiuj diras “tion ĉi artikolon skribis tiu aŭ iu”. Povas okazi ke la montrita lingvo de la interfaco de iu retejo ne estas tute tradukita, povas okazi ke uzanto agordis alian interfacolingvon, povas okazi ke aŭtoro skribis plurlingvajn artikolojn, per citado povas okazi pluroblaĵoj, ktp. Multaj ebloj.

Kaj multaj problemoj, ĉar segmentado trans pluraj lingvoj, enkodigoj kaj dosierformatoj povas ĝenegi. Almenaŭ ne eblas segmenti ĉion bone je la unua trapaso. Imageblas iteracia aliro, kie bonaj segmentoj estu rekonataj aŭ per homa juĝado aŭ per tre solida kalkulebla kriterio, poste el tiuj segmentoj per aŭtomata analizo venu listo kun kandidatoj por mallongigoj, propraj nomoj, datoj, serinumeroj, aliaj eble interesaj unuoj, kaj per tiu listo la iteracio komencu denove.

Advertisements
 

Respondi

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Ŝanĝi )

Twitter picture

You are commenting using your Twitter account. Log Out / Ŝanĝi )

Facebook photo

You are commenting using your Facebook account. Log Out / Ŝanĝi )

Google+ photo

You are commenting using your Google+ account. Log Out / Ŝanĝi )

Connecting to %s