Re: [l10n-no] Ordelingslister

31 Jan 2022

      Leif H Silli skreiv 30.01.2022 19:04:
...
Hei

Kva er den (mest) autoratative staden å lasta ned ordlister for

ordeling ifrå? (Hyphenation-ordlister)
Det kjem an på kva du meiner med orddeling. Viss det er snakk om 
ordlister for å finna ut korleis ord er sette saman, er den 
*autoritative* kjelda leddanalyse-databasen i Norsk ordbank: 
https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-41/
Der står òg uvanlege orddelingar, som hotelløyve (= hotell + løyve, der 
trippelkonsonant vert til dobbelkonsonant), og birøktar (bie + røktar, 
der e-en fell vekk).
Men det står ingenting om deling av ikkje-samansette ord. Viss du heller 
vil ha såkalla orddelingsmønster (som kan brukast til dette), for bruk i 
TeX og liknande, finst det ingen *autoritative*, men eg anbefaler 
Selberg sine mønster (som igjen er ei justering av Kleveland sine mønster):
https://ctan.org/pkg/nohyph
Det er vel dei som vert lasta automatisk om du vel (ny)norsk som språk i 
LaTeX.
Litt kuriosa: Det finst to (kjende) ord som vert delte forskjellig på 
nynorsk og bokmål. Det er «attende» og «betre» (men tydinga er altså 
forskjellig på dei to målformene.)
...

Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for

bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med 
eit bruksdøme:
Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå 
tug.ctan.org[1]. So har eg installert listene, etter beste evne, 
forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) 
kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser 
at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den 
orddelinga som skjer fylgjer norske orddelingsreglar, eller om det 
berre er engelsk orddeling applisert på norsk tekst eg ser.
Tru meg, det oppdagar du *veldig* fort. Viss orddelinga ser nokolunde 
riktig ut, har du norsk orddeling. Viss du brukar engelske 
orddelingsmønster, vert det aller meste feil. Du får «nyn-orsk» og 
«bind-es-trek», for eksempel.
...
Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar 
tekst skulle vera delt i to like tekstar, der den eine sida skulle 
vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) 
orddeling. Når ein så køyrer testteksten i sitt eige program, skal 
teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte 
som teksten med manuell/fast/hard orddeling.
Leddanalysefilene frå Norsk ordbank kan jo brukast til å finna 
hovudorddelingane.
Og viss du vil ha nokre skikkelege (og litt humoristiske) utfordringar 
for orddelingsalgoritmen, kan du sjå på Orddeling-stoppen min (ikkje 
oppdatert på mange år): https://huftis.org/artiklar/orddeling-stoppen/
Og viss du er interessert i automatisk orddeling generelt, anbefaler eg 
Eivind Mikael Lindbråten si (usedvanlege typografisk vakre) 
masteroppgåve om emnet, som du kan lasta ned i PDF-format her: 
https://www.duo.uio.no/handle/10852/44768
-- 
Karl Ove Hufthammer

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

Re: [l10n-no] Ordelingslister