Er dette korrekt sorteringsrekkefølge for de ISO-8859-1-tegnene som følger under? Dette er rekkefølgen som 'sort' gir når jeg bruker locale no_NO. Er det samme sorteringsrekkefølge som windows bruker?
Jeg mangler EURO her, men den mangler også i ISO-8859-1, så jeg tok den derfor ikke med.
Noen som vet om 'ð' skal sorteres som en bokstav, eller som et spesialtegn?
---------------------
_ - , ; : ! ? / . ` ^ ~ ' " « » ( ) [ ] { } § ® @ ¤ ¢ $ £ ¥ * \ & # % + < =
| ð 0 1 2 9 A a Á á À à Â â Ã ã B b C c Ç ç D d E e É é È è Ê ê Ë ë F f G g H h I i Í í Ì ì Î î Ï ï J j K k L l M m N n Ñ ñ O o º Ó ó Ò ò Ô ô Õ õ P p Q q R r S s ß T t Þ þ U u Ú ú Ù ù Û û V v W w X x Y y Ý ý ÿ Ü ü Z z Æ æ Ä ä Ø ø Ö ö Å å AA Aa aa ---------------------
On Wed, Jun 18, 2003 at 12:35:14AM +0200, Petter Reinholdtsen wrote:
Er dette korrekt sorteringsrekkefølge for de ISO-8859-1-tegnene som følger under? Dette er rekkefølgen som 'sort' gir når jeg bruker locale no_NO. Er det samme sorteringsrekkefølge som windows bruker?
det høres ut som det er veldigt mange feil i den. F.eks må alle store A'er sorteres før de små.
A Á À Â a á à â
Jeg er ikke sikker på at spesialtegenene sorteres riktig. og Å/AA må sorteres
Å AA Aa å aa
Jeg mangler EURO her, men den mangler også i ISO-8859-1, så jeg tok den derfor ikke med.
Noen som vet om 'ð' skal sorteres som en bokstav, eller som et spesialtegn?
ð er et bokstav!
hilsen keld
[Keld Jørn Simonsen]
det høres ut som det er veldigt mange feil i den. F.eks må alle store A'er sorteres før de små.
Se her, ja. Ingenting er som en liten testcase for å få folk til å finne feil. Er dette i henhold til NS 4103 eller en annen standard?
Er det noen tegn jeg har glemt men som vi burde påse kommer i riktig rekkefølge?
Noen som vet om 'ð' skal sorteres som en bokstav, eller som et spesialtegn?
ð er et bokstav!
Joda, på Island, men skal den sorteres som en bokstav på norsk? Er det noen standard som har dokumentert dette?
[Petter Reinholdtsen]:
[Keld Jørn Simonsen]
ð er et bokstav!
Joda, på Island, men skal den sorteres som en bokstav på norsk? Er det noen standard som har dokumentert dette?
eg ville forvente at edh vart sortert rett etter d, du har trass alt plassert thorn etter t. men eg har ingen standard å vise til.
[Kjetil Torgrim Homme]
eg ville forvente at edh vart sortert rett etter d, du har trass alt plassert thorn etter t. men eg har ingen standard å vise til.
Jeg også, egentlig, men glibc-vedlikeholderne lar seg ikke overbevise av hva jeg tror. Jeg trenger nok mer håndfaste referanser å slå i bordet med. :/
On Wed, 18 Jun 2003, Petter Reinholdtsen wrote:
[Keld Jørn Simonsen]
Noen som vet om 'ð' skal sorteres som en bokstav, eller som et spesialtegn?
ð er et bokstav!
Joda, på Island, men skal den sorteres som en bokstav på norsk? Er det noen standard som har dokumentert dette?
Det er da så absolutt en bokstav i (gammel)norsk også! Men jeg vet ikke om noen standard som dokumenterer det. Videresender spørsmålet til noen som kanskje vet.
Thomas Gramstad thomas@ifi.uio.no
On Wed, Jun 18, 2003 at 09:55:22AM +0200, Petter Reinholdtsen wrote:
[Keld Jørn Simonsen]
det høres ut som det er veldigt mange feil i den. F.eks må alle store A'er sorteres før de små.
Se her, ja. Ingenting er som en liten testcase for å få folk til å finne feil. Er dette i henhold til NS 4103 eller en annen standard?
Er det noen tegn jeg har glemt men som vi burde påse kommer i riktig rekkefølge?
Noen som vet om 'ð' skal sorteres som en bokstav, eller som et spesialtegn?
ð er et bokstav!
Joda, på Island, men skal den sorteres som en bokstav på norsk? Er det noen standard som har dokumentert dette?
Jeg viser til http://www.dkuug.dk/cultreg/registrations/narrative/nb_NO,_4.5 som er normativ for bokmål. Den sir:
Clause 1: Alphanumeric deterministic ordering
"Ordering in Norwegian Bokmål is defined in Norwegian Standard NS 4103, 1972.
Normal <a> to <z> ordering is used on the Latin script, except for the following letters: The letters <æ> <ø> <å> are ordered as 3 separate letters after <z>. <ü> is ordered as <y>, <ä> as <æ>, <ö> as <ø>, <ð> as <d>, <þ> as <t><h>, French <œ> as <o><e>. Two <a>s are ordered as <å>, except when denoting two sounds (which is normally the case only in combined words). When words otherwise compare equally, nonaccented letters come before accented letters, and capital letters come before small letters. There is no explicit ordering of accents specified in "Tanums store rettskrivningsordbok", and whether case or accents are the most important is not specified.
Both strict alphabetical ordering, and word-by-word ordering are in use. Also ordering after context, keeping related terms together, is used."
Med "normal ordering" vises til de europeiske standarder ENV 13710 og ISO 12199, idet ISO/IEC 14651 ikke er noe som følger kulturellt akseptabel sortering i noen av de små detaljene (hvilket ISO 12199 gjør).
Vennlig hilsen Keld
[Keld Jørn Simonsen]
Jeg viser til http://www.dkuug.dk/cultreg/registrations/narrative/nb_NO,_4.5 som er normativ for bokmål. Den sir:
Jepp, der var jammen ð nevnt. Men det står ingenting om ð skal sorteres før eller etter d, eller forsåvidt noen av de andre spesialtegnene. Det står heller ingenting om rekkefølgen på store og små bokstaver. Vi må ha en eller annen standard å slå i bordet med hvis vi skal få glibc-utviklerne til å endre localet.
Med "normal ordering" vises til de europeiske standarder ENV 13710 og ISO 12199, idet ISO/IEC 14651 ikke er noe som følger kulturellt akseptabel sortering i noen av de små detaljene (hvilket ISO 12199 gjør).
Har du URLer til disse?
On Thursday 19 June 2003 14:13, Petter Reinholdtsen wrote:
[Keld Jørn Simonsen]
Jeg viser til http://www.dkuug.dk/cultreg/registrations/narrative/nb_NO,_4.5 som er normativ for bokmål. Den sir:
Jepp, der var jammen ð nevnt. Men det står ingenting om ð skal sorteres før eller etter d, eller forsåvidt noen av de andre spesialtegnene. Det står heller ingenting om rekkefølgen på store og små bokstaver. Vi må ha en eller annen standard å slå i bordet med hvis vi skal få glibc-utviklerne til å endre localet.
Med "normal ordering" vises til de europeiske standarder ENV 13710 og ISO 12199, idet ISO/IEC 14651 ikke er noe som følger kulturellt akseptabel sortering i noen av de små detaljene (hvilket ISO 12199 gjør).
Har du URLer til disse?
ISO 12199 http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=33300... ISO 14651 http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=25066...
Men dette er jo fra iso.org og der koster de gjerne en ~150 CHF
det er vel gjerne en gode 750 kroner norske om jeg ikke tar feil...
On Thu, Jun 19, 2003 at 02:13:45PM +0200, Petter Reinholdtsen wrote:
[Keld Jørn Simonsen]
Jeg viser til http://www.dkuug.dk/cultreg/registrations/narrative/nb_NO,_4.5 som er normativ for bokmål. Den sir:
Jepp, der var jammen ð nevnt. Men det står ingenting om ð skal sorteres før eller etter d, eller forsåvidt noen av de andre spesialtegnene. Det står heller ingenting om rekkefølgen på store og små bokstaver. Vi må ha en eller annen standard å slå i bordet med hvis vi skal få glibc-utviklerne til å endre localet.
Det står at ð ordnes som d, dvs at i en flernivå sortering ordnes ð på første nivået som d (dernæst ordnes det etter d på nivå 2). Er dette klart nok?
Om rekkefølgen på store og små bokstaver: det står: "capital letters come before small letters" - det tolker jeg som store før små.
Med "normal ordering" vises til de europeiske standarder ENV 13710 og ISO 12199, idet ISO/IEC 14651 ikke er noe som følger kulturellt akseptabel sortering i noen av de små detaljene (hvilket ISO 12199 gjør).
Har du URLer til disse?
ISO FDIS 12199: http://www.dkuug.dk/jtc1/sc22/wg20/docs/n720.pdf
Jeg har en URL til en POSIX spesifikasjon av ENV 13710, nemlig CEN CWA 14051: http://www.cenorm.be/isss/cwa_download_area/cwa14051-1.pdf http://www.cenorm.be/isss/cwa_download_area/cwa14051-2.pdf
Vennlig hilsen keld
[Keld Jørn Simonsen]
Det står at ð ordnes som d, dvs at i en flernivå sortering ordnes ð på første nivået som d (dernæst ordnes det etter d på nivå 2). Er dette klart nok?
Ja, beskrivelsen din over er klar og entydig. Men det står ikke i dokumentet at d kommer før ð når de står alene, med mindre en tolker ð som en 'accented letter'.
Om rekkefølgen på store og små bokstaver: det står: "capital letters come before small letters" - det tolker jeg som store før små.
Riktig. Den hadde jeg klart å overse ved første gjennomlesing.
Det står derimot ingenting om store/små har "høyere prioritet" ved sorteringen enn aksenter. Det er viktig for å vite om det skal være
A Á a á
eller
A a Á á
Det er ikke gitt i URL:http://std.dkuug.dk/cultreg/registrations/narrative/nb_NO,_4.5.html hvilke av disse mulige tolkningene som er riktige. Jeg la merke til at du foreslo den første tolkningen, men hvor finner du støtte for dette i den tilgjengelige referanseliteraturen?
Et mer kritisk problem er jo at det ikke er entydig definert hvilken rekkefølge de forskjellige aksentene skal ha. Hva er korrekt rekkefølge på é, è, ê og ë? Eller ä og æ for den saks skyld. Det hevdes jo å være udefinert, og det blir jo uholdbart når sorteringsrekkefølgen skal entydig defineres.
On Thu, Jun 19, 2003 at 04:52:43PM +0200, Petter Reinholdtsen wrote:
[Keld Jørn Simonsen]
Det står at ð ordnes som d, dvs at i en flernivå sortering ordnes ð på første nivået som d (dernæst ordnes det etter d på nivå 2). Er dette klart nok?
Ja, beskrivelsen din over er klar og entydig. Men det står ikke i dokumentet at d kommer før ð når de står alene, med mindre en tolker ð som en 'accented letter'.
Om rekkefølgen på store og små bokstaver: det står: "capital letters come before small letters" - det tolker jeg som store før små.
Riktig. Den hadde jeg klart å overse ved første gjennomlesing.
Det står derimot ingenting om store/små har "høyere prioritet" ved sorteringen enn aksenter. Det er viktig for å vite om det skal være
Det er riktig at det ikke står hvad som er mest betydende, aksenter eller stor/små. Det framgår ikke av spesifikasjonen hverken i NS 4103 eller av Tanum.
A Á a á
eller
A a Á á
Det er ikke gitt i URL:http://std.dkuug.dk/cultreg/registrations/narrative/nb_NO,_4.5.html hvilke av disse mulige tolkningene som er riktige. Jeg la merke til at du foreslo den første tolkningen, men hvor finner du støtte for dette i den tilgjengelige referanseliteraturen?
Det framgår av nb_NO at man følger den vanlige sorteringsorden for det latinske alfabetet, og dette foreskriver at aksenter har prioritet framfor stor/små. Alle de kjente spesifikasjoner angir dette, ISO/IEC 14652, ISO 12199, ENV 13710. Det framgår også av vanlig logik, idet aksentene beskriver lyder og dermed mening, hvorimot stor/små ikke endrer uttale.
Et mer kritisk problem er jo at det ikke er entydig definert hvilken rekkefølge de forskjellige aksentene skal ha. Hva er korrekt rekkefølge på é, è, ê og ë? Eller ä og æ for den saks skyld. Det hevdes jo å være udefinert, og det blir jo uholdbart når sorteringsrekkefølgen skal entydig defineres.
Der sir jeg også, at nb_NO viser til vanlig sortering for det latinske alfabetet, dvs vi bruker det som foreskrives i ISO 12199 og ENV 13710.
Hilsen Keld
[Keld Jørn Simonsen]
Det er riktig at det ikke står hvad som er mest betydende, aksenter eller stor/små. Det framgår ikke av spesifikasjonen hverken i NS 4103 eller av Tanum.
Kjipe standarder. :(
Det framgår av nb_NO at man følger den vanlige sorteringsorden for det latinske alfabetet, og dette foreskriver at aksenter har prioritet framfor stor/små.
Hvis jeg forstår dette riktig, så mener du at korrekt rekkefølge er "A a Á á", og ikke "A Á a á". Har jeg misforstått? Jeg blir forvirret, da du tidligere nevnte følgende:
[Keld Jørn Simonsen, 2003-06-18]
F.eks må alle store A'er sorteres før de små.
A Á À Â a á à â
Det er jo det motsatte, eller er det jeg som har misforstått noe?
[Keld Jørn Simonsen, 2003-06-20]
Alle de kjente spesifikasjoner angir dette, ISO/IEC 14652, ISO 12199, ENV 13710. Det framgår også av vanlig logik, idet aksentene beskriver lyder og dermed mening, hvorimot stor/små ikke endrer uttale.
Jeg er enig i at det høres logisk ut.
Der sir jeg også, at nb_NO viser til vanlig sortering for det latinske alfabetet, dvs vi bruker det som foreskrives i ISO 12199 og ENV 13710.
Jeg må nok lese meg opp på disse standardene, før jeg forstår alt dette. :)
On Fri, Jun 20, 2003 at 12:05:47AM +0200, Petter Reinholdtsen wrote:
[Keld Jørn Simonsen]
Det er riktig at det ikke står hvad som er mest betydende, aksenter eller stor/små. Det framgår ikke av spesifikasjonen hverken i NS 4103 eller av Tanum.
Kjipe standarder. :(
Det framgår av nb_NO at man følger den vanlige sorteringsorden for det latinske alfabetet, og dette foreskriver at aksenter har prioritet framfor stor/små.
Hvis jeg forstår dette riktig, så mener du at korrekt rekkefølge er "A a Á á", og ikke "A Á a á". Har jeg misforstått? Jeg blir forvirret, da du tidligere nevnte følgende:
[Keld Jørn Simonsen, 2003-06-18]
F.eks må alle store A'er sorteres før de små.
A Á À Â a á à â
Det er jo det motsatte, eller er det jeg som har misforstått noe?
Det er meg som skrev noe som var galt. du har rett. Rekkefølgen bør være:
A a Á á À à Â â
[Keld Jørn Simonsen, 2003-06-20]
Alle de kjente spesifikasjoner angir dette, ISO/IEC 14652, ISO 12199, ENV 13710. Det framgår også av vanlig logik, idet aksentene beskriver lyder og dermed mening, hvorimot stor/små ikke endrer uttale.
Jeg er enig i at det høres logisk ut.
Der sir jeg også, at nb_NO viser til vanlig sortering for det latinske alfabetet, dvs vi bruker det som foreskrives i ISO 12199 og ENV 13710.
Jeg må nok lese meg opp på disse standardene, før jeg forstår alt dette. :)
Fint!
Hilsen keld
Petter Reinholdtsen pere@hungry.com skreiv i innlegget news:20030619165243.A12444@saruman.uio.no:
Det står derimot ingenting om store/små har "høyere prioritet" ved sorteringen enn aksenter. Det er viktig for å vite om det skal være
A Á a á
eller
A a Á á
Er ikkje dette klart ut frå følgjande:
When words otherwise compare equally, nonaccented letters come before accented letters, and capital letters come before small letters.
A, Á, a og á er like (på eitt nivå), og derfor må rekkefølgja bli:
A Á a á
I det andre alternativet ditt kjem ein liten bokstav «a» før same store bokstav «Á», som strir mot teksten. Første alternativet er derfor det einaste mulige.
Petter Reinholdtsen pere@hungry.com skreiv i innlegget news:20030619165243.A12444@saruman.uio.no:
Et mer kritisk problem er jo at det ikke er entydig definert hvilken rekkefølge de forskjellige aksentene skal ha.
Jo. På siste nivå er det alltid leksikografisk ordning etter «codepoint»-nummer i ISO 10646.
[Karl Ove Hufthammer]
Er ikkje dette klart ut frå følgjande:
When words otherwise compare equally, nonaccented letters come before accented letters, and capital letters come before small letters.A, Á, a og á er like (på eitt nivå), og derfor må rekkefølgja bli:
A Á a á
Nei, jeg synes ikke det er klart forklart i sitatet du refererer hvorvidt store/små eller aksent/ingen aksent skal ha høyest prioritet når en må velge rekkefølge basert på kun disse to.
I det andre alternativet ditt kjem ein liten bokstav «a» før same store bokstav «Á», som strir mot teksten. Første alternativet er derfor det einaste mulige.
Bortsett fra at Keld nå mener at det skal tolkes annerledes. Jeg synes ikke det framgår klart av teksten.
Jo. På siste nivå er det alltid leksikografisk ordning etter «codepoint»-nummer i ISO 10646.
Det står heller ikke klart i teksten. Der står det jo at det er udefinert på norsk i hvilken rekkefølge en bokstav med forskjellige typer aksenter skal sorteres.