Leif H Silli skreiv 30.01.2022 19:04:
Hei
- Kva er den (mest) autoratative staden å lasta ned ordlister for
ordeling ifrå? (Hyphenation-ordlister)
Det kjem an på kva du meiner med orddeling. Viss det er snakk om ordlister for å finna ut korleis ord er sette saman, er den *autoritative* kjelda leddanalyse-databasen i Norsk ordbank: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-41/
Der står òg uvanlege orddelingar, som hotelløyve (= hotell + løyve, der trippelkonsonant vert til dobbelkonsonant), og birøktar (bie + røktar, der e-en fell vekk).
Men det står ingenting om deling av ikkje-samansette ord. Viss du heller vil ha såkalla orddelingsmønster (som kan brukast til dette), for bruk i TeX og liknande, finst det ingen *autoritative*, men eg anbefaler Selberg sine mønster (som igjen er ei justering av Kleveland sine mønster): https://ctan.org/pkg/nohyph Det er vel dei som vert lasta automatisk om du vel (ny)norsk som språk i LaTeX.
Litt kuriosa: Det finst to (kjende) ord som vert delte forskjellig på nynorsk og bokmål. Det er «attende» og «betre» (men tydinga er altså forskjellig på dei to målformene.)
- Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for
bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med eit bruksdøme:
Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå tug.ctan.org[1]. So har eg installert listene, etter beste evne, forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den orddelinga som skjer fylgjer norske orddelingsreglar, eller om det berre er engelsk orddeling applisert på norsk tekst eg ser.
Tru meg, det oppdagar du *veldig* fort. Viss orddelinga ser nokolunde riktig ut, har du norsk orddeling. Viss du brukar engelske orddelingsmønster, vert det aller meste feil. Du får «nyn-orsk» og «bind-es-trek», for eksempel.
Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar tekst skulle vera delt i to like tekstar, der den eine sida skulle vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) orddeling. Når ein så køyrer testteksten i sitt eige program, skal teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte som teksten med manuell/fast/hard orddeling.
Leddanalysefilene frå Norsk ordbank kan jo brukast til å finna hovudorddelingane.
Og viss du vil ha nokre skikkelege (og litt humoristiske) utfordringar for orddelingsalgoritmen, kan du sjå på Orddeling-stoppen min (ikkje oppdatert på mange år): https://huftis.org/artiklar/orddeling-stoppen/
Og viss du er interessert i automatisk orddeling generelt, anbefaler eg Eivind Mikael Lindbråten si (usedvanlege typografisk vakre) masteroppgåve om emnet, som du kan lasta ned i PDF-format her: https://www.duo.uio.no/handle/10852/44768