Re: [i18n-no] Dato og valuta på nordsamisk

10 Nov 2008


      Den 9. nov. 2008 kl. 21.22 skrev Karl Ove Hufthammer:
...
Sundag 09 november 2008 skreiv Kjetil Torgrim Homme:
...
...
Mistenker dog at problemet er størst på nynorsk, etter å
ha tittet etter hvor mange ord med dobbel a som finnes i
stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).
kva slags ord er dette?  eg trudde dette berre ville gjelde særnamn  
-- i
alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"
Det er mange. Inkjekjønnsord som sluttar på a (dramaa, dataa),  
hankjønnsord
som sluttar på a (ciabattaar), samansette ord (ekstraarbeid,  
dataanlegg) og
ymse enkeltord (kanaanittisk).
Men ikkje minst er det filnamn som kanskje er det sorteringa vert  
brukt mest
på. Eg likar for eksempel ikkje at musikkfilene i AAC-format vert  
sorterte som
*.åc, langt etter MP3-filene, at utviklingsfiler som  
libplasmaappletdialog.so
vert handtert som om dei heitte libplasmåppletdialog.so, at OpenDAAP  
vert til
OpenDÅP, og so vidare. Eit kjapt søk på disken gav over sju tusen  
filnamn som
inneheldt aa, og berre ei handfull av desse kunne sorterast som  
«å» (blant
andre nokre musikkfiler av Ivar Medaas, og oppsettfilene til  
diskusjonsgruppa
no.fag.spraak.fagord).
Det slår meg at det som trengst mest av alt her er meir bruk av  
språkteknologi, i lag med meir intelligent val av  
sorteringsrekkjefylgje. Dei døma du nemner kunne i så fall få dette  
resultatet:
Bøygd form: reduser til grunnform eller finn morfemgrense for å få  
rett sortering:
dramaa -> grunnform drama, morfemgrense drama|a
dataa -> grunnform data, morfemgrense data|a
ciabattaar -> grunnform ciabatta, morfemgrense ciabatta|ar
Samansette ord: finn ordgrensa for å få rett sortering:
ekstraarbeid -> ekstra#arbeid
dataanlegg -> data#anlegg
Låneord som kanaanittisk får ikkje rett sortering berre med  
morfologisk analyse, men det er fullt mogleg å leggja inn informasjon  
om uttale som ein del av analysen, og på det viset kunna få fram rett  
sortering. Det same kan ein gjera med namn.
Når det gjeld filnamnsuffiks er det opplagt at dei bør sorterast som  
aa, ikkje å. Og det kan da ikkje vera så vanskeleg å sortera  
filnamnsuffiks forskjellig frå t.d. namnet før suffikset. Det burde  
heller ikkje vera umogleg å sortera nokre katalogar på norsk vis, og  
andre på ASCII-vis (t.d. bibliotekskatalogar).
Tidlegare har tilgangen til (tilstrekkeleg) avansert språkteknologi  
vore eit hinder, i tillegg til mangel på kjennskap til og kunnskap om  
slik teknologi mellom vanlege programmerarar. Men dei siste åra har vi  
fyrst fått SFST (Stuttgart Finite State Technology - GPL-lisens), og  
seinare HFST (Helsinki FST, som byggjer på SFST, men med betre  
grensesnitt, og eit sett tilgjengelege analysatorar for ulike språk).  
Det finst derfor ingen grunn lenger til *ikkje* å ta i bruk  
språkteknologi på område der det vil gje vesentleg betre  
brukarvenlegheit.
Konklusjon: i staden for å kritisera sorteringsreglane, vil eg heller  
retta kritikken mot OS-produsentane - dei kan gjera det betre enn dei  
gjer det no!
Sjur

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

Re: [i18n-no] Dato og valuta på nordsamisk