La ideo estas krei vortaron de ĉiuj plenaj vortformoj de ĉiuj segmentoj, kiuj estas bonaj kandidatoj havi esperanto-enhavon. El tiu vortaro eblos diveni validajn esperanto-vortojn per analizado de afiksoj. Per la rezulta listo de kandidatvortoj plus afiksado poste eblos taksi la malpurajn segmentojn per sekvaj iteracioj.
Unua aliro al purigado: ekskludi ĉiujn segmentojn, kiuj ne kongruas kun la esperanto-alfabeto. Kompreneble, tio ekskludas ankaŭ multajn esperanto-segmentojn kiuj enhavas proprajn nomojn kun sola neesperanta litero. Aliflanke tio inkluzivas ankaŭ frazojn el aliaj lingvoj, kiuj hazarde ne kontraŭas la esperanto-alfabeton. Cetere, la x-sistemo ne travivas tian filtradon.
Jen rezulto de rapida serĉo tra la tabelo de unikaj segmentoj por ekscii, kiom da materialo estus en la unua iteracio.
sercxo: [\sĉĝĥĵŝŭa-pr-vzĈĜĤĴŜŬA-PR-VZ0123456789.…,\:;()/?!"„“”%&<>»\-]* 221 sekundoj dauxro 274'395 segmentoj trovitaj 21'483'355 signoj suma longeco 78 signoj averagxa longeco
[…] la kolekto de segmentoj kongruantaj kun la esperanto-alfabeto kiel priskribita en antaŭa artikolo purigi-segmentojn. Por doni poentojn al sola vorto, rad provas radikigi la vorton per laŭsistema aplikado de eblaj […]