On Monday 10 November 2008 01:03:14 Kjetil Torgrim Homme wrote:
On Sun, 2008-11-09 at 20:22 +0100, Karl Ove Hufthammer wrote:
Sundag 09 november 2008 skreiv Kjetil Torgrim Homme:
Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).
kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"
Det er mange. Inkjekjønnsord som sluttar på a (dramaa, dataa), hankjønnsord som sluttar på a (ciabattaar), samansette ord (ekstraarbeid, dataanlegg) og ymse enkeltord (kanaanittisk).
nettopp, i samnamn kan/skal ein sortere "aa" som "aa". for særnamn er det vanskelegare, der bør orda helst registrerast med uttalemåte eksplisitt for å få det rett, jf. "Kanaan", "Aaron", men "Haakon", "Aasgaard", "Laagendalsposten" osv. osv.
Noko som viser at det ikkje finnast ei algoritme som kan sortere sjølv særnamn korrekt utan underliggjande informasjon om datasettet. I all hovudsak kan ein rekne med at det vil vere meir korrekt å ikkje sortere aa som å, det vil sei for alle samnamn, samt ein del særnamn.
Men ikkje minst er det filnamn som kanskje er det sorteringa vert brukt mest på. Eg likar for eksempel ikkje at musikkfilene i AAC-format vert sorterte som *.åc, langt etter MP3-filene, at utviklingsfiler som libplasmaappletdialog.so vert handtert som om dei heitte libplasmåppletdialog.so, at OpenDAAP vert til OpenDÅP, og so vidare. Eit kjapt søk på disken gav over sju tusen filnamn som inneheldt aa, og berre ei handfull av desse kunne sorterast som «å» (blant andre nokre musikkfiler av Ivar Medaas, og oppsettfilene til diskusjonsgruppa no.fag.spraak.fagord).
AAC er opplagt eit særnamn, likeeins OpenDAAP, så eg forstår ikkje heilt kvifor du trekk fram desse eksempla.
Dette er gode eksempel fordi det ikkje berre er særnamn, men forkortingar. AAC skal til dømes uttalast a-a-c, ikkje as. Det er forøvrig ikkje særskilt opplagt at forkortingar er særnamn i seg sjølv, sidan fleire reelle særnamn kan kortast ned til den samme forkortinga.
Mvh, Lars Ivar Igesund