memkompreneble

"Ekde kiam homoj la unuan fojon forlasis siajn kavernojn kaj renkontis aliulojn kun aliaj vidpunktoj kaj aliaj lingvoj ekzistas revo: mortigi ilin, por ke ni ne devu lerni ilian lingvon nek kompreni ilian vidpunkton." – citaĵo el la filmo "The Beast With a Billion Backs" de la usona tv-serio Futuramo – tiu ŝerco evidente celas al esperanto, ĉar en la sama filmo oni ankaŭ proponas senseksajn pronomojn "shklim" kaj "shkler" por la angla

trovi indikitajn enkodigojn per regesp 2010-01-05

Filed under: neenkategoriigitaj — memkompreneble @ 18:50
Tags:

Per la sekvaj regulaj esprimoj eblis trovi la enkodigojn indikitajn en parto de la elsuĉitaj paĝoj:

  • regesp_1 = (<[mM][eE][tT][aA] )([\s\S]*?)([cC][oO][nN][tT][eE][nN][tT]=)([\s\S]*?)([cC][hH][aA][rR][sS][eE][tT]=)([\s\S]*?)((/>)|(</[mM][eE][tT][aA]>))
  • regesp_2 = ([cC][hH][aA][rR][sS][eE][tT]=)([\s\S]*?)([ ‘”])
  • regesp_3 = (<\?[xX][mM][lL] )([\s\S]*?)([eE][nN][cC][oO][dD][iI][nN][gG]=)([\s\S]*?)(\?>)
  • regesp_4 = ((([eE][nN][cC][oO][dD][iI][nN][gG]=”)([\s\S]*?)(“))|(([eE][nN][cC][oO][dD][iI][nN][gG]=’)([\s\S]*?)(‘)))

La unua esprimo trovas enkodigoindikilojn en html-paĝoj kaj la dua eltranĉas la bezonatan parton el tiuj. Simile, la tria esprimo trovas enkodigoindikilojn en xml-paĝoj kaj la kvara eltranĉas ilin el tiuj.

Por ŝpari iomon da tempo kiam venontfoje bezonatos la serĉo, nova tabelo estis kreita por stori la rezultojn de tiuj serĉoj por ĉiuj dokumentoj en la kolekto.

El tiu rezulta tabelo evidentiĝis la sekva listo kun sume 94551 trovitaj indikiloj kaj sume 25 malsamaj indikiloj pri enkodigo kaj kun la kvanto da dokumentoj kun tia indiko:

88278 UTF-8
2052 iso-8859-1
1616 windows-1252
774 iso-8859-2
750
456 windows-1251
301 iso-8859-3
60 windows-1250
37 gb-utf-8
36 BIG5
36 ISO-8859-4
36 iso-8859-7
36 iso-8859-8-i
36 windows-1256
18 iso-8859-15
11 us-ascii
5 Shift_JIS
4 iso8859-2
2 EO-ASCII<br
2 utf8
1 GB2312
1 ISO-8859-1/ADVANCED_SEARCHFILTER
1 windows-1255
1 EUC-JP
1 windows-UTF-8

Kaj por ricevi la supran tabelon, la tuj sekva sql-esprimo estis uzita:

SELECT `enkodigo`,SUM(`kvanto`) AS `sumo` FROM (
 SELECT html_enkodigo AS `enkodigo`,COUNT(*) AS `kvanto`
 FROM tabelo_urlenkodigoj
 WHERE html_enkodigo IS NOT NULL
 GROUP BY html_enkodigo
UNION
 SELECT xml_enkodigo AS `enkodigo`,COUNT(*) AS `kvanto`
 FROM tabelo_urlenkodigoj
 WHERE xml_enkodigo IS NOT NULL
 GROUP BY xml_enkodigo
) AS `subpeto`
GROUP BY `enkodigo`
ORDER BY `sumo` DESC;

Ŝajnas ke la regulaj esprimoj malsukcesis trovi bonformitan indikilon pri uzita enkodigo ĉe kelkaj dokumentoj, kiuj aperas kun malplena enkodigo-kampo en la rezulta tabelo.

Ŝajnas cetere ke la okapi-filtrilo/segmentilo daŭre ne kontrolas, ke la indikita enkodigo kongruas kun la fakte trovita signostrio. Por eviti kelkajn esceptojn dum filtrado, necesos aŭ a) ekskludi la dokumentojn kun esceptoj dum filtrado el la kolekto, aŭ b) reskribi propran filtrilon. … Per tia supra kaj similaj raportoj espereble eblu trovi kaj korekti la problemojn.

Advertisements
 

Respondi

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Ŝanĝi )

Twitter picture

You are commenting using your Twitter account. Log Out / Ŝanĝi )

Facebook photo

You are commenting using your Facebook account. Log Out / Ŝanĝi )

Google+ photo

You are commenting using your Google+ account. Log Out / Ŝanĝi )

Connecting to %s