Re: [i18n-no] [i18n-sme] Dato og valuta på nordsamisk

List overview All Threads
Download

newer

older

[i18n-nb] Syntaksfeil i...

[i18n-nn] apt 0.7.19: Please...

Karl Ove Hufthammer

9 Nov 2008 9 Nov '08

4:46 p.m.

[Sender denne over til i18n-no-lista, då saka passar betre der.]

Sundag 9. november 2008 skreiv Petter Reinholdtsen:

...

...
Har sett dokumentet, men forslaga var litt ukonkrete, og til dels feil. For eksempel er punktum uaktuelt som tusenskiljeteikn. Det er heller ingen grunn til at me skal bruka vanlig mellomrom i staden for hardt mellomrom.

Enig i at det er like konkret, men problemet er sprikende kilder og uklarhet om hvilke kilder som bør brukes. Hvilke kilder foretrekker du å basere deg på?

I dei språklige retningslinjene våre har me slått fast at me skal følgja offisiell norsk rettskriving – læreboknormalen: http://i18n.skolelinux.no/retningslinjer.html

Det er med andre ord Språkrådet me skal følgja. I neste KDE-versjon skal òg både tal, valuta, datoar og klokkeslett vera 100 % rett etter anbefalingane til Språkrådet. Her er me altso mykje betre enn Microsoft, som *ikkje* følgjer offisiell norsk rettskriving når det gjeld dette.

...

Jeg forstår ikke hva du mener med "til dels feil". Jeg antar du snakker om dette avsnittet:

Det er strid om hvilket skilletegn som skal brukes mellom gruppene. Noen hevder det skal være mellomrom (SPACE U+0020 eller NO-BREAK SPACE U+00A0), andre mener det skal være punktum (.). Argumentet for å bruke punktum er at det blir enklere for programmer å lese inn tall hvis de henger sammen uten mellomrom. Argumentet for å bruke NO-BREAK SPACE i stedet for SPACE er at tall ikke bør splittes i to ved automatisk tekstformattering.

Hva mener du er feil? Mener du at det ikke finner noen som mener tusenskilletegnet skal være punktum?

Det var spesielt det avsnittet eg tenkte på, ja. «Feil» var kanskje å ta for hardt i, men det er iallfall klart at me skal bruka (hardt) mellomrom, ikkje punktum som tusenskiljeteikn.

...

...
Når det gjeld sorteringa, er sortering av «aa» noko av det mest irriterande med det gjeldande lokaleoppsettet for norsk. Eg har fleire gongar opplevd at filer vert sorterte feil fordi nokon har fått for seg at «aa» skal sorterast som å. Det fører òg til at godt over 5000 ord i nynorskordlista (eks. dataa) vert sorterte feil.

Når det gjelder denne sorteringsregelen har jeg funnet to kilder, begge referert i dokumentet. Det ene er URL:http://std.dkuug.dk/cultreg/registrations/narrative/nb_NO,_4.5 som sier at aa skal sorteres som å når det uttales som å.

Det er sjølsvagt rimelig når det er snakk om manuell sortering. Men når det er snakk om maskinell sortering vert dette umulig, og me må handtera «aa» som to a-ar etter kvarandre. Det er heller ikkje noko stort tap. Faktisk trur eg ville forventa å finna for eksempel «Braathens» sortert saman med «Bra».

Dei gjeldande sorteringsreglane bør med andre ord endrast.

-- Mvh. Karl Ove Hufthammer http://blogg.huftis.org/ E-post og Jabber: karl@huftis.org

Show replies by date

Petter Reinholdtsen

9 Nov 9 Nov

5:27 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

[Karl Ove Hufthammer]

...

[Sender denne over til i18n-no-lista, då saka passar betre der.]

Jepp.

Fint om noen kan oppdatere URL:http://i18n.skolelinux.no/localeoppsett.html slik at det framgår at selv om kildene spriker så er det bestemt hvilke kilder vi skal tro på og hvilke vi skal ignorere. Fint om det også framgår hvorfor, og med kildehenvisninger, og gjerne hvem som har tatt avgjørelsen. Det vil gjøre det enklere når locale-definisjonene i glibc skal oppdateres (da krever glibc-utviklerne kildehenvisninger).

...

Faktisk trur eg ville forventa å finna for eksempel «Braathens» sortert saman med «Bra».

Personlig må jeg innrømme at jeg forventer å finne «Braathens» sammen med «Brå». Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).

...

Dei gjeldande sorteringsreglane bør med andre ord endrast.

Personlig synes jeg det er korrekt for bokmål at aa sorteres som å.

Vennlig hilsen,

-- Petter Reinholdtsen

Kjetil Torgrim Homme

7:48 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

On Sun, 2008-11-09 at 17:27 +0100, Petter Reinholdtsen wrote:

...

[Karl Ove Hufthammer]

...
Faktisk trur eg ville forventa å finna for eksempel «Braathens» sortert saman med «Bra».

Personlig må jeg innrømme at jeg forventer å finne «Braathens» sammen med «Brå».

einig.

...

Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).

kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"

...

...
Dei gjeldande sorteringsreglane bør med andre ord endrast.

Personlig synes jeg det er korrekt for bokmål at aa sorteres som å.

eg synest ikkje det bør vere noko skilje mellom nynorsk og bokmål her.

-- med venleg helsing, Kjetil T.

Karl Ove Hufthammer

8:22 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

Sundag 09 november 2008 skreiv Kjetil Torgrim Homme:

...

...
Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).

kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"

Det er mange. Inkjekjønnsord som sluttar på a (dramaa, dataa), hankjønnsord som sluttar på a (ciabattaar), samansette ord (ekstraarbeid, dataanlegg) og ymse enkeltord (kanaanittisk).

Men ikkje minst er det filnamn som kanskje er det sorteringa vert brukt mest på. Eg likar for eksempel ikkje at musikkfilene i AAC-format vert sorterte som *.åc, langt etter MP3-filene, at utviklingsfiler som libplasmaappletdialog.so vert handtert som om dei heitte libplasmåppletdialog.so, at OpenDAAP vert til OpenDÅP, og so vidare. Eit kjapt søk på disken gav over sju tusen filnamn som inneheldt aa, og berre ei handfull av desse kunne sorterast som «å» (blant andre nokre musikkfiler av Ivar Medaas, og oppsettfilene til diskusjonsgruppa no.fag.spraak.fagord).

Elles kan eg melda at eg òg har opplevd direkte negative konsekvensar av sorteringa, der eg trudde eg hadde mista filer som berre var feilsorterte (hugsar ikkje namna, men det var nok filer som begynte på «aa», og derfor vart sorterte til slutt, etter alle dei andre alfabetet).

...

...
...
Dei gjeldande sorteringsreglane bør med andre ord endrast.

Personlig synes jeg det er korrekt for bokmål at aa sorteres som å.

eg synest ikkje det bør vere noko skilje mellom nynorsk og bokmål her.

Einig.

-- Mvh. Karl Ove Hufthammer http://blogg.huftis.org/ E-post og Jabber: karl@huftis.org

Håkon Løvdal

10:41 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

2008/11/9 Karl Ove Hufthammer karl@huftis.org:

...

Det er mange. Inkjekjønnsord som sluttar på a (dramaa, dataa), hankjønnsord som sluttar på a (ciabattaar), samansette ord (ekstraarbeid, dataanlegg) og ymse enkeltord (kanaanittisk).

Men ikkje minst er det filnamn som kanskje er det sorteringa vert brukt mest på. Eg likar for eksempel ikkje at musikkfilene i AAC-format vert sorterte som *.åc, langt etter MP3-filene, at utviklingsfiler som libplasmaappletdialog.so vert handtert som om dei heitte libplasmåppletdialog.so, at OpenDAAP vert til OpenDÅP, og so vidare. Eit kjapt søk på disken gav over sju tusen filnamn som inneheldt aa, og berre ei handfull av desse kunne sorterast som «å» (blant andre nokre musikkfiler av Ivar Medaas, og oppsettfilene til diskusjonsgruppa no.fag.spraak.fagord).

Tusen takk for flotte eksempler - utover smak og behag - som viser at det er galskap å sortere aa som å. Jeg ble minnet om en klassisk, relevant vits:

Elev: "Goethe var en stor poet." Lærer: "Nei, nei. 'Oe' uttales ø. Gøte." Elev: "OK. Gøte var en stor pøt."

Dersom man skal sortere aa som å vil det være unaturlig å ikke også sortere oe som ø og ae som æ. Jeg håper alle innser hvor hinsides feil det vil være.

...

...
eg synest ikkje det bør vere noko skilje mellom nynorsk og bokmål her.

Einig.

Ogsaa enig.

Mvh Håkon Løvdal

Petter Reinholdtsen

10:53 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

[Håkon Løvdal]

...

Dersom man skal sortere aa som å vil det være unaturlig å ikke også sortere oe som ø og ae som æ. Jeg håper alle innser hvor hinsides feil det vil være.

Jeg forstår at dette er et retorisk poeng, men det blir ikke bedre av dette. De norske telefonkatalogene har sortert 'aa' som 'å' i mange år (når det representerer lyden å), og en kan dermed regne med at store deler av den norske befolkning forventer slik sortering. Jeg er sikker på at det samme gjelder leksikon og ordbøker, men finner ingen gode kilder til dette her. Det samme gjelder ikke 'oe' og 'ae', som aldri har blitt sortert sammen med 'ø' og 'æ' hverken i telefonkatalogene eller andre steder. :)

Jeg antar spørsmålet vil være hva som gir minst overraskelser, og der er det åpenbart at vi har ulikt syn på saken. :)

Vennlig hilsen,

-- Petter Reinholdtsen

Håkon Løvdal

11:26 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

2008/11/9 Petter Reinholdtsen pere@hungry.com:

...

Jeg forstår at dette er et retorisk poeng, men det blir ikke bedre av dette. De norske telefonkatalogene har sortert 'aa' som 'å' i mange år (når det representerer lyden å), og en kan dermed regne med at store deler av den norske befolkning forventer slik sortering.

Men en telefonkatalog representerer et veldig, veldig , veldig spesielt språklig utvalg, nemlig bare egennavn. Man kan ikke generalisere dette til å gjelde all sortering. I verste fall kan jeg kanskje gå med på at aa skal sorteres som å i navnelister, men absolutt ikke generelt.

Mvh Håkon Løvdal

Petter Reinholdtsen

11:36 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

[Håkon Løvdal]

...

Men en telefonkatalog representerer et veldig, veldig , veldig spesielt språklig utvalg, nemlig bare egennavn. Man kan ikke generalisere dette til å gjelde all sortering.

Enig i dette. Noen som har informasjon om hvilke sorteringsregler publiserte ordbøker og leksikon bruker? Mistenker som tidligere nevnt at de bruker samme regler som telefonkatalogen, men har ingen kilde enkelt tilgjengelig her jeg sitter.

Vennlig hilsen,

-- Petter Reinholdtsen

Grepstad Jon

10 Nov 10 Nov

4:49 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

...

From: Petter Reinholdtsen [pere@hungry.com] Sent: 2008-11-09 23:36:02 CET To: i18n-no@lister.ping.uio.no Subject: Re: [i18n-no] Dato og valuta på nordsamisk

[Håkon Løvdal]

...
Men en telefonkatalog representerer et veldig, veldig , veldig spesielt språklig utvalg, nemlig bare egennavn. Man kan ikke generalisere dette til å gjelde all sortering.

Enig i dette. Noen som har informasjon om hvilke sorteringsregler publiserte ordbøker og leksikon bruker? Mistenker som tidligere nevnt at de bruker samme regler som telefonkatalogen, men har ingen kilde enkelt tilgjengelig her jeg sitter.

Denne sida har kanskje interesse: http://www.ordnett.no/Alfabeter.html#bokstaver

Med helsing

Jon Grepstad

Kjetil Torgrim Homme

1:03 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

On Sun, 2008-11-09 at 20:22 +0100, Karl Ove Hufthammer wrote:

...

Sundag 09 november 2008 skreiv Kjetil Torgrim Homme:

...
...
Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).

kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"

Det er mange. Inkjekjønnsord som sluttar på a (dramaa, dataa), hankjønnsord som sluttar på a (ciabattaar), samansette ord (ekstraarbeid, dataanlegg) og ymse enkeltord (kanaanittisk).

nettopp, i samnamn kan/skal ein sortere "aa" som "aa". for særnamn er det vanskelegare, der bør orda helst registrerast med uttalemåte eksplisitt for å få det rett, jf. "Kanaan", "Aaron", men "Haakon", "Aasgaard", "Laagendalsposten" osv. osv.

...

Men ikkje minst er det filnamn som kanskje er det sorteringa vert brukt mest på. Eg likar for eksempel ikkje at musikkfilene i AAC-format vert sorterte som *.åc, langt etter MP3-filene, at utviklingsfiler som libplasmaappletdialog.so vert handtert som om dei heitte libplasmåppletdialog.so, at OpenDAAP vert til OpenDÅP, og so vidare. Eit kjapt søk på disken gav over sju tusen filnamn som inneheldt aa, og berre ei handfull av desse kunne sorterast som «å» (blant andre nokre musikkfiler av Ivar Medaas, og oppsettfilene til diskusjonsgruppa no.fag.spraak.fagord).

AAC er opplagt eit særnamn, likeeins OpenDAAP, så eg forstår ikkje heilt kvifor du trekk fram desse eksempla.

-- med venleg helsing, Kjetil T.

Lars Ivar Igesund

9:37 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

On Monday 10 November 2008 01:03:14 Kjetil Torgrim Homme wrote:

...

On Sun, 2008-11-09 at 20:22 +0100, Karl Ove Hufthammer wrote:

...
Sundag 09 november 2008 skreiv Kjetil Torgrim Homme:

...
...
Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).

kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"

Det er mange. Inkjekjønnsord som sluttar på a (dramaa, dataa), hankjønnsord som sluttar på a (ciabattaar), samansette ord (ekstraarbeid, dataanlegg) og ymse enkeltord (kanaanittisk).

nettopp, i samnamn kan/skal ein sortere "aa" som "aa". for særnamn er det vanskelegare, der bør orda helst registrerast med uttalemåte eksplisitt for å få det rett, jf. "Kanaan", "Aaron", men "Haakon", "Aasgaard", "Laagendalsposten" osv. osv.

Noko som viser at det ikkje finnast ei algoritme som kan sortere sjølv særnamn korrekt utan underliggjande informasjon om datasettet. I all hovudsak kan ein rekne med at det vil vere meir korrekt å ikkje sortere aa som å, det vil sei for alle samnamn, samt ein del særnamn.

...

...
Men ikkje minst er det filnamn som kanskje er det sorteringa vert brukt mest på. Eg likar for eksempel ikkje at musikkfilene i AAC-format vert sorterte som *.åc, langt etter MP3-filene, at utviklingsfiler som libplasmaappletdialog.so vert handtert som om dei heitte libplasmåppletdialog.so, at OpenDAAP vert til OpenDÅP, og so vidare. Eit kjapt søk på disken gav over sju tusen filnamn som inneheldt aa, og berre ei handfull av desse kunne sorterast som «å» (blant andre nokre musikkfiler av Ivar Medaas, og oppsettfilene til diskusjonsgruppa no.fag.spraak.fagord).

AAC er opplagt eit særnamn, likeeins OpenDAAP, så eg forstår ikkje heilt kvifor du trekk fram desse eksempla.

Dette er gode eksempel fordi det ikkje berre er særnamn, men forkortingar. AAC skal til dømes uttalast a-a-c, ikkje as. Det er forøvrig ikkje særskilt opplagt at forkortingar er særnamn i seg sjølv, sidan fleire reelle særnamn kan kortast ned til den samme forkortinga.

Mvh, Lars Ivar Igesund

Kjetil Torgrim Homme

10:28 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

On Mon, 2008-11-10 at 09:37 +0100, Lars Ivar Igesund wrote:

...

On Monday 10 November 2008 01:03:14 Kjetil Torgrim Homme wrote:

...
AAC er opplagt eit særnamn, likeeins OpenDAAP, så eg forstår ikkje heilt kvifor du trekk fram desse eksempla.

Dette er gode eksempel fordi det ikkje berre er særnamn, men forkortingar. AAC skal til dømes uttalast a-a-c, ikkje as. Det er forøvrig ikkje særskilt opplagt at forkortingar er særnamn i seg sjølv, sidan fleire reelle særnamn kan kortast ned til den samme forkortinga.

vel vel, så var eg kanskje litt upresis når eg kalla det særnamn. lat oss heller seie, "ord som startar med stor forbokstav", for det er det som er den enkle eigenskapen å sjekke for ei datamaskin.

det er kanskje irrelevant, sidan det er mogleg at den einaste måten å løyse dette på er å leggje ein eksplisitt liste av ord der "aa" skal sorterast som "å" inn i sorteringsalgoritma. ei slik liste burde vere av overkomeleg storleik (ca. tusen :-)

-- med venleg helsing, Kjetil T.

Sjur Nørstebø Moshagen

9:53 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

Den 9. nov. 2008 kl. 21.22 skrev Karl Ove Hufthammer:

...

Sundag 09 november 2008 skreiv Kjetil Torgrim Homme:

...
...
Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).

kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"

Det er mange. Inkjekjønnsord som sluttar på a (dramaa, dataa), hankjønnsord som sluttar på a (ciabattaar), samansette ord (ekstraarbeid, dataanlegg) og ymse enkeltord (kanaanittisk).

Men ikkje minst er det filnamn som kanskje er det sorteringa vert brukt mest på. Eg likar for eksempel ikkje at musikkfilene i AAC-format vert sorterte som *.åc, langt etter MP3-filene, at utviklingsfiler som libplasmaappletdialog.so vert handtert som om dei heitte libplasmåppletdialog.so, at OpenDAAP vert til OpenDÅP, og so vidare. Eit kjapt søk på disken gav over sju tusen filnamn som inneheldt aa, og berre ei handfull av desse kunne sorterast som «å» (blant andre nokre musikkfiler av Ivar Medaas, og oppsettfilene til diskusjonsgruppa no.fag.spraak.fagord).

Det slår meg at det som trengst mest av alt her er meir bruk av språkteknologi, i lag med meir intelligent val av sorteringsrekkjefylgje. Dei døma du nemner kunne i så fall få dette resultatet:

Bøygd form: reduser til grunnform eller finn morfemgrense for å få rett sortering: dramaa -> grunnform drama, morfemgrense drama|a dataa -> grunnform data, morfemgrense data|a ciabattaar -> grunnform ciabatta, morfemgrense ciabatta|ar

Samansette ord: finn ordgrensa for å få rett sortering: ekstraarbeid -> ekstra#arbeid dataanlegg -> data#anlegg

Låneord som kanaanittisk får ikkje rett sortering berre med morfologisk analyse, men det er fullt mogleg å leggja inn informasjon om uttale som ein del av analysen, og på det viset kunna få fram rett sortering. Det same kan ein gjera med namn.

Når det gjeld filnamnsuffiks er det opplagt at dei bør sorterast som aa, ikkje å. Og det kan da ikkje vera så vanskeleg å sortera filnamnsuffiks forskjellig frå t.d. namnet før suffikset. Det burde heller ikkje vera umogleg å sortera nokre katalogar på norsk vis, og andre på ASCII-vis (t.d. bibliotekskatalogar).

Tidlegare har tilgangen til (tilstrekkeleg) avansert språkteknologi vore eit hinder, i tillegg til mangel på kjennskap til og kunnskap om slik teknologi mellom vanlege programmerarar. Men dei siste åra har vi fyrst fått SFST (Stuttgart Finite State Technology - GPL-lisens), og seinare HFST (Helsinki FST, som byggjer på SFST, men med betre grensesnitt, og eit sett tilgjengelege analysatorar for ulike språk). Det finst derfor ingen grunn lenger til *ikkje* å ta i bruk språkteknologi på område der det vil gje vesentleg betre brukarvenlegheit.

Konklusjon: i staden for å kritisera sorteringsreglane, vil eg heller retta kritikken mot OS-produsentane - dei kan gjera det betre enn dei gjer det no!

Sjur

Lars Ivar Igesund

10:10 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

On Monday 10 November 2008 09:53:38 Sjur Nørstebø Moshagen wrote:

...

Konklusjon: i staden for å kritisera sorteringsreglane, vil eg heller retta kritikken mot OS-produsentane - dei kan gjera det betre enn dei gjer det no!

Dette er då vitterleg ikkje eit teknisk problem i seg sjølv, men derimot at ord og namn ikkje kjem med informasjon om korleis dei sorterast (utover seg sjølv for å sei det sånn). Om det var vanleg at ord hadde innebygde sorteringsmetadata, så hadde dette vore løyst forlengst. Og sidan ein ikkje kan krevje at den som skriv inn noko legg ved slik informasjon, er einaste reelle tekniske moglegheita og fornuftige løysinga at ordlister vert utvida med sorteringsinformasjon.

Mvh, Lars Ivar Igesund

Sjur Nørstebø Moshagen

12:35 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

Den 10. nov. 2008 kl. 11.10 skrev Lars Ivar Igesund:

...

On Monday 10 November 2008 09:53:38 Sjur Nørstebø Moshagen wrote:

...
Konklusjon: i staden for å kritisera sorteringsreglane, vil eg heller retta kritikken mot OS-produsentane - dei kan gjera det betre enn dei gjer det no!

...

Dette er då vitterleg ikkje eit teknisk problem i seg sjølv, men derimot at ord og namn ikkje kjem med informasjon om korleis dei sorterast (utover seg sjølv for å sei det sånn). Om det var vanleg at ord hadde innebygde sorteringsmetadata, så hadde dette vore løyst forlengst. Og sidan ein ikkje kan krevje at den som skriv inn noko legg ved slik informasjon, er einaste reelle tekniske moglegheita og fornuftige løysinga at ordlister vert utvida med sorteringsinformasjon.

Vel, det var akkurat det eg skreiv. Språkteknologi bruker ein nettopp til å få fram ulik informasjon om orda (og setningane, m.m.) i ein tekst. Og grunndata for all språkteknologi er nettopp "ordlister" i ein eller annan forstand.

Det eg peika på er at sjølv om slike lister finst (og dei finst), og sjølv om språkteknologi finst (som eg skreiv), så blir det ikkje brukt i dei vanlege OS-a i dag.

Eller sagt på ein annan måte:

Du treng teknologi for å henta fram slik informasjon som vi diskuterer her (korrekt sorteringsdata), og denne teknologien heiter språkteknologi. Det er ei svakheit ved OS-a at dei ikkje bruker tilgjengeleg teknologi og data (dvs "ordlister") for å gje det resultatet brukarane vil ha. Eg står fast på konklusjonen min om at det er OS-produsentane som burde gjera ein betre jobb.

Sjur

PS. Eg har sett "ordlister" i hermeteikn, fordi datagrunnlaget for språkteknologi vanlegvis er meir komplekst enn berre lister. Men litt forenkla er det ok å prata om ordlister, det er sjølvsagt lange lister med ord som er ein viktig del av datagrunnlaget. DS.

Lars Ivar Igesund

1:33 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

On Monday 10 November 2008 12:35:01 Sjur Nørstebø Moshagen wrote:

...

Den 10. nov. 2008 kl. 11.10 skrev Lars Ivar Igesund:

...
On Monday 10 November 2008 09:53:38 Sjur Nørstebø Moshagen wrote:

...
Konklusjon: i staden for å kritisera sorteringsreglane, vil eg heller retta kritikken mot OS-produsentane - dei kan gjera det betre enn dei gjer det no!

Dette er då vitterleg ikkje eit teknisk problem i seg sjølv, men derimot at ord og namn ikkje kjem med informasjon om korleis dei sorterast (utover seg sjølv for å sei det sånn). Om det var vanleg at ord hadde innebygde sorteringsmetadata, så hadde dette vore løyst forlengst. Og sidan ein ikkje kan krevje at den som skriv inn noko legg ved slik informasjon, er einaste reelle tekniske moglegheita og fornuftige løysinga at ordlister vert utvida med sorteringsinformasjon.

Vel, det var akkurat det eg skreiv. Språkteknologi bruker ein nettopp til å få fram ulik informasjon om orda (og setningane, m.m.) i ein tekst. Og grunndata for all språkteknologi er nettopp "ordlister" i ein eller annan forstand.

Det eg peika på er at sjølv om slike lister finst (og dei finst), og sjølv om språkteknologi finst (som eg skreiv), så blir det ikkje brukt i dei vanlege OS-a i dag.

Vel, om ein kanskje ser vekk i frå Windows, så er det sjeldan OS'et si oppgåve å sortere noko som helst. For dei fleste operativsystem er ikkje eingong filsystemet ein del av OS'et, og filsystema gjer uansett fint lite utanom å gi deg ein haug med usorterte (dog ofte grupperte) data.

Og sjølv om desse listene finnast, så betyr ikkje det at det ikkje finnast duplikatar på andre språk som ikkje skal sorterast etter norsk måte - korleis veit ein at noko faktisk er meint å skulle tolkast som norsk? Må brukaren krysse av for det dersom det er snakk om eit søkjefelt?

...

Eller sagt på ein annan måte:

Du treng teknologi for å henta fram slik informasjon som vi diskuterer her (korrekt sorteringsdata), og denne teknologien heiter språkteknologi. Det er ei svakheit ved OS-a at dei ikkje bruker tilgjengeleg teknologi og data (dvs "ordlister") for å gje det resultatet brukarane vil ha. Eg står fast på konklusjonen min om at det er OS-produsentane som burde gjera ein betre jobb.

Det er kanskje MS sin feil at det ikkje er implementert noko slikt i Windows, og tilsvarande for Apple og OSX - men som oftast vil du sjå mangelen på bruk av slik teknologi i programvare som ingen av dei har laga (og på Linux og andre OS har sjeldan distributørane ansvar for slikt i programvaren som dei leverar). Vidare må ein sjå på kor mange språk der dette faktisk er ei relevant problemstilling - engelsk som ofte får litt for stor relevans i utvikling av slag teknologi har det definitivt ikkje. Vidare vil ein for all del ikkje kople inn slik teknologi alle plassar der noko skal sorterast, spesielt ikkje berre fordi norsk _kan_ vere i bruk, ettersom det ville gjere eit trivielt sorteringsproblem (basert på numerisk eigenverdi av teksten) om til ein merkbart dyrare operasjon (iallfall isolert sett, på ein desktop PC vil ein sannynlegvis ikkje tenkje over dette). Vidare må det nemnast at det på ingen måte er ein teneste frå operativ-systemet å sortere tekst, derimot er dette noko som er implementert om att og om att opp og ned i mente, og å endre alle desse til å bruke ein sentralisert teneste (ikkje nødvendigvis ein dum ide reint teknisk) ville vere eit enormt arbeid (men ikkje teknisk vanskeleg). Dersom nokon faktisk ynskte å gjere noko sånt, så vil eg tru at ein raskast kunne få effekt i programvare slik som KDE, der ein i det minste har standard listekomponentar for bruk i GUI, men eg veit ikkje om dei forskjellige applikasjonane som brukar desse komponentane også brukar felles sorteringsfunksjonalitet (normalt sett er det ikkje noko problem å spesialisere dette per applikasjon).

Personleg meiner eg det vil vere fullstendig feil å ha "norsk sortering" ein einaste plass i normal programvare, utanom i lister der ein veit at der kun skal vere eigennamn, og at desse er norske - og det einaste tilfellet som alle vil møte er kontaktlister (telefonkatalogar, etc) og kanskje sortering av epost på avsendar. Desse kan/bør i så tilfelle handterast spesielt. Sjølv søk vil verte skadelidande dersom norsk sortering er i bruk, dersom ein ikkje også sjekkar om søkjetermen kanskje kan vere eit norsk særnamn (men kanskje er det ikkje det, det er berre skrive som eit norsk særnamn).

Jamnt over kan eg seie (som ein som til dagleg utviklar programvare og teoretisk sett kunne ha vorte tvinga til å implementere dette) at det vil vere eit semantisk mareritt å få 100% korrekt, men at å bruke numerisk sortering vil vere rett (og alltid enklast) i suverent flest tilfelle.

Mvh, Lars Ivar Igesund

Sjur Nørstebø Moshagen

6:24 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

Den 10. nov. 2008 kl. 14.33 skrev Lars Ivar Igesund:

...

On Monday 10 November 2008 12:35:01 Sjur Nørstebø Moshagen wrote:

...
Den 10. nov. 2008 kl. 11.10 skrev Lars Ivar Igesund:

...
On Monday 10 November 2008 09:53:38 Sjur Nørstebø Moshagen wrote:

...
Konklusjon: i staden for å kritisera sorteringsreglane, vil eg heller retta kritikken mot OS-produsentane - dei kan gjera det betre enn dei gjer det no!

Dette er då vitterleg ikkje eit teknisk problem i seg sjølv, men derimot at ord og namn ikkje kjem med informasjon om korleis dei sorterast (utover seg sjølv for å sei det sånn). Om det var vanleg at ord hadde innebygde sorteringsmetadata, så hadde dette vore løyst forlengst. Og sidan ein ikkje kan krevje at den som skriv inn noko legg ved slik informasjon, er einaste reelle tekniske moglegheita og fornuftige løysinga at ordlister vert utvida med sorteringsinformasjon.

Vel, det var akkurat det eg skreiv. Språkteknologi bruker ein nettopp til å få fram ulik informasjon om orda (og setningane, m.m.) i ein tekst. Og grunndata for all språkteknologi er nettopp "ordlister" i ein eller annan forstand.

Det eg peika på er at sjølv om slike lister finst (og dei finst), og sjølv om språkteknologi finst (som eg skreiv), så blir det ikkje brukt i dei vanlege OS-a i dag.

Vel, om ein kanskje ser vekk i frå Windows, så er det sjeldan OS'et si oppgåve å sortere noko som helst. For dei fleste operativsystem er ikkje eingong filsystemet ein del av OS'et, og filsystema gjer uansett fint lite utanom å gi deg ein haug med usorterte (dog ofte grupperte) data.

Det er mange plassar ein har bruk for å sortera data. Det vi her pratar om gjeld brukargrensesnittet, dvs korleis OS-et presenterer ein viss datatype (lister) til brukaren, og korleis brukaren venter seg at slike lister skal presenterast (t.d. sortert alfabetisk korrekt etter reglane for språket brukaren har valt i grensesnittet).

I den Unicode-verda vi no lever i er korrekt sortering for alle språk ei kompleks oppgåve, og oftast både sentralisert for heile OS-et, og bygd på data frå sentrale lokale-repositorium. Det best kjende dømet er kanskje IBM sitt bibliotek for i18n-tilpassa programvare (ICU - International Components for Unicode [http://icu-project.org/], både for C/C++ og Java), som er open kjeldekode og tilgjengeleg for alle.

...

Og sjølv om desse listene finnast, så betyr ikkje det at det ikkje finnast duplikatar på andre språk som ikkje skal sorterast etter norsk måte - korleis veit ein at noko faktisk er meint å skulle tolkast som norsk? Må brukaren krysse av for det dersom det er snakk om eit søkjefelt?

Både på MacOS X og i Windows (og eg vil tru i Linux òg) kan ein velja sorteringsrekkjefylgje for lokale-sensitive lister, vanlegvis i eit kontrollpanel eller liknande. Ein vel sorteringsrekkjefylgje ved å velgja kva for språk sorteringa skal fylgja. Vanleg praksis for ord som fell utanfor alfabetdefinisjonen til språket er å falla tilbake på standard Unicode-sortering.

...

...
Eller sagt på ein annan måte:

Du treng teknologi for å henta fram slik informasjon som vi diskuterer her (korrekt sorteringsdata), og denne teknologien heiter språkteknologi. Det er ei svakheit ved OS-a at dei ikkje bruker tilgjengeleg teknologi og data (dvs "ordlister") for å gje det resultatet brukarane vil ha. Eg står fast på konklusjonen min om at det er OS-produsentane som burde gjera ein betre jobb.

Det er kanskje MS sin feil at det ikkje er implementert noko slikt i Windows, og tilsvarande for Apple og OSX

Ja, det er det.

...

men som oftast vil du sjå mangelen på bruk av slik teknologi i

programvare som ingen av dei har laga

MacOS X tilbyr OS-funksjonar for å sortera tekst i samsvar med brukarinnstillingane, og eg vil tru at Windows gjer det same. God programvare bruker slike tenester for å få konsistent oppførsel frå program til program.

...

(og på Linux og andre OS har sjeldan distributørane ansvar for slikt i programvaren som dei leverar).

For Linux kan jo du og eg gjera det - i prinsippet i alle fall. Distributørane har ingen ting med saka å gjera, der er vi samd.

...

Vidare må ein sjå på kor mange språk der dette faktisk er ei relevant problemstilling

Mange, men fyrst og fremst for skriftspråk baserte på det latinske alfabetet.

...

engelsk som ofte får litt for stor relevans i utvikling av slag

teknologi har det definitivt ikkje.

Etter det eg veit skal a og á sorterast likt på engelsk - då må sorteringsrutinen kunna abstrahera over ASCII- eller Unicode-kodar. Med t.d. ICU er dette ferdig (og effektivt) implementert.

...

Vidare vil ein for all del ikkje kople inn slik teknologi alle plassar der noko skal sorterast,

Nei, sjølvsagt ikkje, berre der det er relevant med lokalesensitive lister (typisk, men ikkje berre, i brukargrensesnittet).

...

spesielt ikkje berre fordi norsk _kan_ vere i bruk, ettersom det ville gjere eit trivielt sorteringsproblem (basert på numerisk eigenverdi av teksten) om til ein merkbart dyrare operasjon (iallfall isolert sett, på ein desktop PC vil ein sannynlegvis ikkje tenkje over dette).

ICU tilbyr ein effektiv implementasjon, men det er sjølvsagt meir kostbart enn om ein berre sorterer på ASCII-verdi. Men ASCII er ikkje eit svar det folk treng i dag. Unicode er det.

...

Vidare må det nemnast at det på ingen måte er ein teneste frå operativ-systemet å sortere tekst, derimot er dette noko som er implementert om att og om att opp og ned i mente, og å endre alle desse til å bruke ein sentralisert teneste (ikkje nødvendigvis ein dum ide reint teknisk) ville vere eit enormt arbeid (men ikkje teknisk vanskeleg).

Som eg skreiv over, er dette standard funksjonar frå OS-et i det minste i MacOS X, og det er etter kvart meiningslaust å prøva å laga locale-sensitiv sortering sjølv. Det er komplekst, og det finst som sagt ferdige bibliotekpakker for det, både frå OS-a og som open kjeldekode frå IBM. Det er altså ingen grunn til *ikkje* å gjera det. Det betyr ikkje at det ikkje er mykje arbeid å skriva om gamal kode - det er det sjølvsagt.

...

Dersom nokon faktisk ynskte å gjere noko sånt, så vil eg tru at ein raskast kunne få effekt i programvare slik som KDE, der ein i det minste har standard listekomponentar for bruk i GUI, men eg veit ikkje om dei forskjellige applikasjonane som brukar desse komponentane også brukar felles sorteringsfunksjonalitet (normalt sett er det ikkje noko problem å spesialisere dette per applikasjon).

KDE vil vera ein rimeleg plass.

...

Personleg meiner eg det vil vere fullstendig feil å ha "norsk sortering" ein einaste plass i normal programvare, utanom i lister der ein veit at der kun skal vere eigennamn, og at desse er norske - og det einaste tilfellet som alle vil møte er kontaktlister (telefonkatalogar, etc) og kanskje sortering av epost på avsendar. Desse kan/bør i så tilfelle handterast spesielt. Sjølv søk vil verte skadelidande dersom norsk sortering er i bruk, dersom ein ikkje også sjekkar om søkjetermen kanskje kan vere eit norsk særnamn (men kanskje er det ikkje det, det er berre skrive som eit norsk særnamn).

Ein skal ikkje ha *norsk* sortering - ein skal ha *internasjonalisert* sortering, dvs sortering som enkelt kan endrast etter kva språk brukaren vil ha lister sorterte etter. Eg ventar på den dagen det finst støtte for samisk sortering i KDE/tilsvarande, Windows (der er kanskje samisk sortering alt på plass), MacOS X, og Java. Rett og slett fordi det finst datatypar som *skal* sorterast alfabetisk, og der ventar brukarane seg at det skal vera det. I nokre tilfelle krev dette meir enn berre å laga ein tabell over korrekt rekkjefylgje, som for norsk og dansk Aa/aa, t.d. ved samansette ord, og der kan språkteknologi brukast til å laga velfungerande løysingar. Velfungerande betyr at det funkar for alle stort sett heile tida. Dei løysingane vi har i dag fungerer som vi alle har konstatert ikkje.

...

Jamnt over kan eg seie (som ein som til dagleg utviklar programvare og teoretisk sett kunne ha vorte tvinga til å implementere dette) at det vil vere eit semantisk mareritt å få 100% korrekt,

Derfor er det nokon som har teke på seg jobben, og laga ICU. Dermed slepp alle andre det, inkl. du. Det er berre å lasta ned, installera, og lenka det inn i koden din.

...

men at å bruke numerisk sortering vil vere rett (og alltid enklast) i suverent flest tilfelle.

Sjølvsagt vil det vera mange slike tilfelle, men i dei "suverent flest tilfella" der ein skal presentera tekstlister til brukaren, vil ei alfabetisk korrekt liste vera det beste. Det betyr at aa som a og aa som å begge bør sorterast rett. Det er svært enkelt å senda lista til ein språkteknologikomponent laga for formålet, og få tilbake ei liste med tilleggsinformasjon om sorteringsnykkel. Det går dessutan raskt.

Vi har teknologien, og i dag finst kunnskapen om korleis det kan gjerast. Det finst ingen grunn til å akseptera dei problema som har vorte trekte fram her lenger. Og problemet er ikkje norsk (eller andre språk si) sorteringsrekkjefylgje.

...

Mvh, Lars Ivar Igesund

Beste helsing Sjur

Lars Ivar Igesund

11 Nov 11 Nov

12:43 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

Orsak at eg kverulerar litt - er ikkje prinsipielt mot korrekt sortering, stiller meg berre litt tvilande til at ein slik sorteringsteneste vil verte tilgjengeleg med det fyrste.

On Monday 10 November 2008 18:24:50 Sjur Nørstebø Moshagen wrote:

...

Den 10. nov. 2008 kl. 14.33 skrev Lars Ivar Igesund:

...
On Monday 10 November 2008 12:35:01 Sjur Nørstebø Moshagen wrote:

...
Den 10. nov. 2008 kl. 11.10 skrev Lars Ivar Igesund:

...
On Monday 10 November 2008 09:53:38 Sjur Nørstebø Moshagen wrote:

...
Konklusjon: i staden for å kritisera sorteringsreglane, vil eg heller retta kritikken mot OS-produsentane - dei kan gjera det betre enn dei gjer det no!

Dette er då vitterleg ikkje eit teknisk problem i seg sjølv, men derimot at ord og namn ikkje kjem med informasjon om korleis dei sorterast (utover seg sjølv for å sei det sånn). Om det var vanleg at ord hadde innebygde sorteringsmetadata, så hadde dette vore løyst forlengst. Og sidan ein ikkje kan krevje at den som skriv inn noko legg ved slik informasjon, er einaste reelle tekniske moglegheita og fornuftige løysinga at ordlister vert utvida med sorteringsinformasjon.

Vel, det var akkurat det eg skreiv. Språkteknologi bruker ein nettopp til å få fram ulik informasjon om orda (og setningane, m.m.) i ein tekst. Og grunndata for all språkteknologi er nettopp "ordlister" i ein eller annan forstand.

Det eg peika på er at sjølv om slike lister finst (og dei finst), og sjølv om språkteknologi finst (som eg skreiv), så blir det ikkje brukt i dei vanlege OS-a i dag.

Vel, om ein kanskje ser vekk i frå Windows, så er det sjeldan OS'et si oppgåve å sortere noko som helst. For dei fleste operativsystem er ikkje eingong filsystemet ein del av OS'et, og filsystema gjer uansett fint lite utanom å gi deg ein haug med usorterte (dog ofte grupperte) data.

Det er mange plassar ein har bruk for å sortera data. Det vi her pratar om gjeld brukargrensesnittet, dvs korleis OS-et presenterer ein viss datatype (lister) til brukaren, og korleis brukaren venter seg at slike lister skal presenterast (t.d. sortert alfabetisk korrekt etter reglane for språket brukaren har valt i grensesnittet).

Mitt poeng er at eg i utgangspunktet ikkje ser på dette som OS-et si oppgåve, først og fremst fordi OS-et ikkje har data som som vil ha behov for slik sortering. Men det kan for all del ha ein slik teneste.

...

I den Unicode-verda vi no lever i er korrekt sortering for alle språk ei kompleks oppgåve, og oftast både sentralisert for heile OS-et, og bygd på data frå sentrale lokale-repositorium. Det best kjende dømet er kanskje IBM sitt bibliotek for i18n-tilpassa programvare (ICU - International Components for Unicode [http://icu-project.org/], både for C/C++ og Java), som er open kjeldekode og tilgjengeleg for alle.

Jau, eg er godt kjent med collation, både gjennom ICU og bibliotek som eg sjølv har vore med å utvikla. Det er då heller ikkje dette eg ser på som eit problem (orsak, utfordring som er til for å løysast).

...

...
Og sjølv om desse listene finnast, så betyr ikkje det at det ikkje finnast duplikatar på andre språk som ikkje skal sorterast etter norsk måte - korleis veit ein at noko faktisk er meint å skulle tolkast som norsk? Må brukaren krysse av for det dersom det er snakk om eit søkjefelt?

Både på MacOS X og i Windows (og eg vil tru i Linux òg) kan ein velja sorteringsrekkjefylgje for lokale-sensitive lister, vanlegvis i eit kontrollpanel eller liknande. Ein vel sorteringsrekkjefylgje ved å velgja kva for språk sorteringa skal fylgja. Vanleg praksis for ord som fell utanfor alfabetdefinisjonen til språket er å falla tilbake på standard Unicode-sortering.

Kanskje det, eg sorterar aldri lenger, eg søkjer :)

...

...
spesielt ikkje berre fordi norsk _kan_ vere i bruk, ettersom det ville gjere eit trivielt sorteringsproblem (basert på numerisk eigenverdi av teksten) om til ein merkbart dyrare operasjon (iallfall isolert sett, på ein desktop PC vil ein sannynlegvis ikkje tenkje over dette).

ICU tilbyr ein effektiv implementasjon, men det er sjølvsagt meir kostbart enn om ein berre sorterer på ASCII-verdi. Men ASCII er ikkje eit svar det folk treng i dag. Unicode er det.

Eg må få påpeike at sjølv om Unicode-sortering til ei viss grad er dyrare enn ASCII-sortering, så var det ikkje det eg meinte - eg jobbar stort sett kun med Unicode sjølv. Eg meinte at å involvere ordlister og andre metadata vil vere fordyrande (og det på eit heilt anna nivå enn Unicode vs ASCII fordi operasjonane på det nivået foregår meir "lokalt" i teksten, per Unicode-eining (code point)).

...

...
Vidare må det nemnast at det på ingen måte er ein teneste frå operativ-systemet å sortere tekst, derimot er dette noko som er implementert om att og om att opp og ned i mente, og å endre alle desse til å bruke ein sentralisert teneste (ikkje nødvendigvis ein dum ide reint teknisk) ville vere eit enormt arbeid (men ikkje teknisk vanskeleg).

Som eg skreiv over, er dette standard funksjonar frå OS-et i det minste i MacOS X, og det er etter kvart meiningslaust å prøva å laga locale-sensitiv sortering sjølv. Det er komplekst, og det finst som sagt ferdige bibliotekpakker for det, både frå OS-a og som open kjeldekode frå IBM. Det er altså ingen grunn til *ikkje* å gjera det. Det betyr ikkje at det ikkje er mykje arbeid å skriva om gamal kode - det er det sjølvsagt.

Eg kan for syns skyld gå med på at ICU kan sjåast på som ein slik sentral teneste, sjølv om den per i dag ikkje løyser den aktuelle problemstillinga.

...

...
Jamnt over kan eg seie (som ein som til dagleg utviklar programvare og teoretisk sett kunne ha vorte tvinga til å implementere dette) at det vil vere eit semantisk mareritt å få 100% korrekt,

Derfor er det nokon som har teke på seg jobben, og laga ICU. Dermed slepp alle andre det, inkl. du. Det er berre å lasta ned, installera, og lenka det inn i koden din.

ICU kan berre hjelpe med korrekt sortering på teikn/bokstavnivå; ordlister, språkdata, metadata, mm. må til for å løyse det vidare problemet (og som sjølv då vil vere umogleg å få heilt korrekt i alle tilfelle).

...

Det er svært enkelt å senda lista til ein språkteknologikomponent laga for formålet, og få tilbake ei liste med tilleggsinformasjon om sorteringsnykkel. Det går dessutan raskt.

Sånn passe for normale brukargrensesnitt iallfall :)

...

Vi har teknologien, og i dag finst kunnskapen om korleis det kan gjerast. Det finst ingen grunn til å akseptera dei problema som har vorte trekte fram her lenger. Og problemet er ikkje norsk (eller andre språk si) sorteringsrekkjefylgje.

Greit nok, det ville vere flott med ei slik tenste. I mellomtida kan ein jo slå seg laus med søkjinga som jo likevel er enklare enn å sortere (så lenge ein ikkje treng treff basert på linguistiske metadata ;).

Mvh, Lars Ivar Igesund

Sjur Nørstebø Moshagen

12 Nov 12 Nov

9:25 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

Den 11. nov. 2008 kl. 01.43 skrev Lars Ivar Igesund:

...

Orsak at eg kverulerar litt - er ikkje prinsipielt mot korrekt sortering, stiller meg berre litt tvilande til at ein slik sorteringsteneste vil verte tilgjengeleg med det fyrste.

Der kan vi vera samde - eg peika berre på at det faktisk er mogleg (og eigentleg ganske enkelt) å løysa dei aller fleste utfordringane som vart nemnde i starten på diskusjonen

...

...
Det er mange plassar ein har bruk for å sortera data. Det vi her pratar om gjeld brukargrensesnittet, dvs korleis OS-et presenterer ein viss datatype (lister) til brukaren, og korleis brukaren venter seg at slike lister skal presenterast (t.d. sortert alfabetisk korrekt etter reglane for språket brukaren har valt i grensesnittet).

Mitt poeng er at eg i utgangspunktet ikkje ser på dette som OS-et si oppgåve, først og fremst fordi OS-et ikkje har data som vil ha behov for slik sortering. Men det kan for all del ha ein slik teneste.

Andre kan ha ei anna oppfatning om kva OS-et bør gjera ;)

Og på eit vist nivå skal jo OS-et handtera brukardata, som av og til omfattar slike som vi her har diskutert. På Linux vil det kanskje vera i KDE (som du ikkje ser på som ein del av OS-et, om eg har oppfatta deg rett), på MacOS X blir dette sett på som ein del av dei tenestene som OS-et skal tilby for å få konsistent oppførsel.

...

Jau, eg er godt kjent med collation, både gjennom ICU og bibliotek som eg sjølv har vore med å utvikla.

Ok.

...

Det er då heller ikkje dette eg ser på som eit problem (orsak, utfordring som er til for å løysast).

Der er vi usamde. Vi konstaterte at dei tilgjengelege algoritmane for å sortera aa korrekt i ein norsk (og dansk) kontekst ikkje er tilstrekkelege i og med at vi ikkje får det resultatet vi ynskjer, og eg peikte på ei (språkteknologibasert) løysing for å ta fram nok metadata til å gje korrekt resultat i dei aller fleste tilfella.

Det underliggjande poenget mitt er at jo meir tekst vi produserer, jo større trong til språkteknologi vil det vera: det gjeld indeksering og søking, tekstbehandling (stavekontroll, grammatikkontroll, orddeling), sortering, talesyntese, m.m. I Linux-miljøa (og største delen av open- kjeldekodemiljøa i det heile) er kunnskapen om slik språkteknologi og kva han kan gjera svært mangelfull, både på eit allment plan og i form av handfaste kunnskapar om korleis ein kan koda slik teknologi. Dette har konsekvensar for brukarane, og for Linux på lengre sikt, fordi særleg MS satsar mykje pengar på språkteknologi (vår venn Bill har jo i åretal hevda at "snart treng vi berre prata med datamaskina" - det har ikkje hendt enno, men MS byggjer stadig inn meir avansert språkteknologi i Windows). I framtida kan det som skil kommersielle OS (og store programpakker) frå gratisvariantar vera nettopp tilgangen på språkleg "intelligens" i systema.

Dessverre er innsatsen til MS (og delvis andre aktørar) mykje styrt av kva engelskspråklege brukarar treng, og språkteknologien er tilsvarande "skeiv". Dette ser vi t.d. i MacOS X og indekseringssystemet Spotlight. Det er eit godt system for engelsk, og delvis brukbart for norsk, men gjer ein håplaus jobb med språk som finsk og samisk pga ordstrukturen i språka. Dersom det hadde vore mogleg å leggja til ein indekseringsanalysator (=språkteknologi) i MacOS X, ville det plutseleg vera svært enkelt å søkja i samiske og finske tekstar på Mac-en, men det er det pr i dag ikkje mogleg å gjera.

Det finst teikn til betringar, fyrst og fremst fordi språkteknologimiljøa sjølve har oppfatta at teknologien deira må bli open kjeldekode for at vi skal få framdrift som gagnar brukarane (sjå t.d. https://kitwiki.csc.fi/twiki/bin/view/KitWiki/HfstHome). I beste fall vil det vera mogleg å ta att noko av det forspranget MS har fått, og til og med gå forbi, særleg i språkteknologistøtta for små språk. Divvun-prosjektet (www.divvun.no) handlar nettopp om det - å utvikla grunnleggjande språkteknologiinfrastruktur for små språk (med hovudvekt på samisk).

Beste helsing Sjur N. Moshagen Samediggi · Sametinget Prosjektleiar for Divvun-prosjektet http://www.divvun.no/ http://www.samediggi.no/ +358-9-49 75 29 (a) +358-505 634 319 (m)

Sam Wilson

14 Nov 14 Nov

11:05 a.m.

New subject: [i18n-no] Min aller første oversettelse

Til IRC-klienten "Konversation" har jeg laget en preliminær oversettelse. Hva synes dere? Ved nærmere ettertanke var det kanskje ikke lurt å gjøre dette uten først å ha lest litt om IRC på norsk, da noen av begrepene er blitt direkte oversatt fra engelsken. Er "bli med" en akseptabel oversettelse til "join", i sammenhenget "you have joined a channel"? Er "noen" godt nok som oversettelse av "someone", eller foretrekkes "en bruker"?MVH Sam. _________________________________________________________________ Få 5000 MB lagringsplass med Windows Live Hotmail. http://clk.atdmt.com/GBL/go/msnnkdre0010000003gbl/direct/01/

Petter Reinholdtsen

9 Nov 9 Nov

9:42 p.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

[Kjetil Torgrim Homme]

...

kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"

Jeg kjørte 'make words.nb words.nn' i kildekoden til spell-norwegian og så 'grep -ci aa' på filene.

Vennlig hilsen,

-- Petter Reinholdtsen

Kjetil Torgrim Homme

10 Nov 10 Nov

1:04 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

On Sun, 2008-11-09 at 21:42 +0100, Petter Reinholdtsen wrote:

...

[Kjetil Torgrim Homme]

...
kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"

Jeg kjørte 'make words.nb words.nn' i kildekoden til spell-norwegian og så 'grep -ci aa' på filene.

- goddag mann! - økseskaft.

-- med venleg helsing, Kjetil T.

Petter Reinholdtsen

5:23 a.m.

New subject: [i18n-no] Dato og valuta på nordsamisk

[Petter Reinholdtsen]

...

Mistenker dog at problemet er størst på nynorsk, etter å ha tittet etter hvor mange ord med dobbel a som finnes i stavekontrollgrunnlaget for bokmål (521) og nynorsk (5154).

[Kjetil Torgrim Homme]

...

kva slags ord er dette? eg trudde dette berre ville gjelde særnamn -- i alle samnamn vil det vere korrekt å konsekvent sortere "aa" som "aa"

[Petter Reinholdtsen]

...

Jeg kjørte 'make words.nb words.nn' i kildekoden til spell-norwegian og så 'grep -ci aa' på filene.

[Kjetil Torgrim Homme]

...

goddag mann!

økseskaft.

Beklager at jeg misforsto deg. Jeg forsto deg dit hen at du ønsket å finne ut hva slags ord det var jeg hadde talt opp, og ga deg derfor oppskriften på hvordan du kunne lage listen over ord for å ta en titt på ordene og dermed finne ut hva slags ord det gjelder. Har ingen ide om hvilke ordklasser dette gjelder, og ingen plan om å skaffe det heller, så det jeg kunne tilby var oppskriften du kunne følge for å finne det ut selv.

Vennlig hilsen,

-- Petter Reinholdtsen

6460

Age (days ago)

6465

Last active (days ago)

l10n-no@nuug.no

22 comments

8 participants

tags (0)

participants (8)

Grepstad Jon
Håkon Løvdal
Karl Ove Hufthammer
Kjetil Torgrim Homme
Lars Ivar Igesund
Petter Reinholdtsen
Sam Wilson
Sjur Nørstebø Moshagen