Den 9. nov. 2008 kl. 21.22 skrev Karl Ove Hufthammer:
Sundag 09 november 2008 skreiv Kjetil Torgrim Homme:
Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).
kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"
Det er mange. Inkjekjønnsord som sluttar på a (dramaa, dataa), hankjønnsord som sluttar på a (ciabattaar), samansette ord (ekstraarbeid, dataanlegg) og ymse enkeltord (kanaanittisk).
Men ikkje minst er det filnamn som kanskje er det sorteringa vert brukt mest på. Eg likar for eksempel ikkje at musikkfilene i AAC-format vert sorterte som *.åc, langt etter MP3-filene, at utviklingsfiler som libplasmaappletdialog.so vert handtert som om dei heitte libplasmåppletdialog.so, at OpenDAAP vert til OpenDÅP, og so vidare. Eit kjapt søk på disken gav over sju tusen filnamn som inneheldt aa, og berre ei handfull av desse kunne sorterast som «å» (blant andre nokre musikkfiler av Ivar Medaas, og oppsettfilene til diskusjonsgruppa no.fag.spraak.fagord).
Det slår meg at det som trengst mest av alt her er meir bruk av språkteknologi, i lag med meir intelligent val av sorteringsrekkjefylgje. Dei døma du nemner kunne i så fall få dette resultatet:
Bøygd form: reduser til grunnform eller finn morfemgrense for å få rett sortering: dramaa -> grunnform drama, morfemgrense drama|a dataa -> grunnform data, morfemgrense data|a ciabattaar -> grunnform ciabatta, morfemgrense ciabatta|ar
Samansette ord: finn ordgrensa for å få rett sortering: ekstraarbeid -> ekstra#arbeid dataanlegg -> data#anlegg
Låneord som kanaanittisk får ikkje rett sortering berre med morfologisk analyse, men det er fullt mogleg å leggja inn informasjon om uttale som ein del av analysen, og på det viset kunna få fram rett sortering. Det same kan ein gjera med namn.
Når det gjeld filnamnsuffiks er det opplagt at dei bør sorterast som aa, ikkje å. Og det kan da ikkje vera så vanskeleg å sortera filnamnsuffiks forskjellig frå t.d. namnet før suffikset. Det burde heller ikkje vera umogleg å sortera nokre katalogar på norsk vis, og andre på ASCII-vis (t.d. bibliotekskatalogar).
Tidlegare har tilgangen til (tilstrekkeleg) avansert språkteknologi vore eit hinder, i tillegg til mangel på kjennskap til og kunnskap om slik teknologi mellom vanlege programmerarar. Men dei siste åra har vi fyrst fått SFST (Stuttgart Finite State Technology - GPL-lisens), og seinare HFST (Helsinki FST, som byggjer på SFST, men med betre grensesnitt, og eit sett tilgjengelege analysatorar for ulike språk). Det finst derfor ingen grunn lenger til *ikkje* å ta i bruk språkteknologi på område der det vil gje vesentleg betre brukarvenlegheit.
Konklusjon: i staden for å kritisera sorteringsreglane, vil eg heller retta kritikken mot OS-produsentane - dei kan gjera det betre enn dei gjer det no!
Sjur