memkompreneble

"Ekde kiam homoj la unuan fojon forlasis siajn kavernojn kaj renkontis aliulojn kun aliaj vidpunktoj kaj aliaj lingvoj ekzistas revo: mortigi ilin, por ke ni ne devu lerni ilian lingvon nek kompreni ilian vidpunkton." – citaĵo el la filmo "The Beast With a Billion Backs" de la usona tv-serio Futuramo – tiu ŝerco evidente celas al esperanto, ĉar en la sama filmo oni ankaŭ proponas senseksajn pronomojn "shklim" kaj "shkler" por la angla

simpla segmentado 2010-01-14

Filed under: raportoj — memkompreneble @ 23:44

Post kelka esksperimentado evidentiĝis, ke la sekva kombino taŭgas por unua simpla segmentado, ĉar tiel la programo ĵetis malplejon da esceptoj dum procezado.

  • unue forpurigi etikedadon kaj skriptaĵojn per la TextExtractor-klaso de Jericho
  • forpurigi kelkajn restaĵojn de malbonformitaj dokumentoj (ekz. nefermitaj komentoj fine de la dokumento)
  • krude segmenti per la PlaintextFilter-klaso de okapi kun standardaj srx-reguloj por la angla lingvo

Segmentoj eniras la tabelon de unikaj segmentoj kaj ricevas identigan numeron. Tiu identigilo kune kun la pozicio de la segmento en la fontdokumento kune kun la identigilo de la fontdokumento eniras kune la tabelon de dokumentsegmentoj. La segmentado nun estas kompletita ĉe ĉirkaŭ 120000 dokumentoj kun ĉ. 530000 unikaj segmentoj kiuj averaĝe longas po ĉ. 160 signoj – do sume iomete pli ol 80MB. Sed tio inkluzivas aliajn lingvojn ol esperanto. Kaj ĝis nun (post 25 horoj de seninterrompa procezado) nur du trionoj de la nuna kolekto estas segmentitaj. Kaj la kolekto daŭre kreskas.

Poste eblos per diversaj heŭristikoj rekoni malbonajn segmentlimojn, kiuj povas okazi i.a. ĉe mallongigoj, ĉe aliaj skribsistemoj ol latinidaj, ĉe datoj, k.s. kaj provi ripari aŭ ekskludi ilin aŭtomate kie eblas. Tamen per la kruda segmentado verŝajne jam 90% de la tekstoj estos bone segmentitaj. Malgraŭ la eraraj segmentoj eblos jam signifohavaj statistikoj, ekz.e kalkuli por ĉiu dokumento la kvanton de unikaj segmentoj kaj la kvanton de ripetaĵoj. Aldone, necesos krei aro(j)n da mane segmentitaj dokumentoj pro pli ekzakta kalkuleblo de la kvalito de la segmentado.

[Redaktita] Jen la fina raporto de la segmentilo:

2010-01-13 23:14:58 komencigxis segmentado
2010-01-15 12:05:05 finigxis segmentado

    132'607 sekundoj dauxris procezado
      0,815 sekundoj averagxe dauxris por cxiu dokumento
    153'933 dokumentoj estas segmentitaj
    480'551 estis la maksimuma url-id
  2'510'008 segmentoj rezultis entute, inkluzive ripetajxoj
    715'509 unikaj segmentoj rezultis
      5,396 unikaj segmentoj averagxe estis trovitaj en cxiu sekundo
        176 signoj estas la averagxa longeco de unikaj segmentoj
125'638'619 signoj estas la suma longeco de unikaj segmentoj
        120 MB da unikaj tekstoj rezultis entute
.
Advertisements
 

Respondi

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Ŝanĝi )

Twitter picture

You are commenting using your Twitter account. Log Out / Ŝanĝi )

Facebook photo

You are commenting using your Facebook account. Log Out / Ŝanĝi )

Google+ photo

You are commenting using your Google+ account. Log Out / Ŝanĝi )

Connecting to %s