Hei
1. Kva er den (mest) autoratative staden å lasta ned ordlister for ordeling ifrå? (Hyphenation-ordlister)
2. Eg har prøvd å lasta ned ordlister frå no.speling.org, men den sida er nett no utilgjengeleg. Er dette permanent?
3. Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med eit bruksdøme:
Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå tug.ctan.org[1]. So har eg installert listene, etter beste evne, forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den orddelinga som skjer fylgjer norske orddelingsreglar, eller om det berre er engelsk orddeling applisert på norsk tekst eg ser. I tilfelle det siste, kan feilen anten liggja i ordlistene ifrå tug.ctan.org … eller det Prince XML som fell tilbake til å nytta engelsk orddeliste, i mangel på (korrekt installert) norske orddelingslister.
Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar tekst skulle vera delt i to like tekstar, der den eine sida skulle vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) orddeling. Når ein så køyrer testteksten i sitt eige program, skal teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte som teksten med manuell/fast/hard orddeling.
Ei god tekstsuite må ha ord som gjev attkjennelege utslag. Og sidan norsk orddeling vel kan utførast på litt ulike måtar, må ei slik testsuite helst implementera fleire orddelingsmåtar/-alternativ … eller i det minste dokumentera den bestemte orddelingsmåten som er forsøkt teke implementert.
[1] http://tug.ctan.org/tex-archive/language/hyph-utf8/tex/generic/hyph-utf8/pat...
Beste helsing Leif Halvard Silli
NB Kan være du trenger mer logikk enn bare en odliste her, i tilfeller med trippelkonsonant: trekkraft
Trekk- kraft
:) Mvh Arno
On Sun, Jan 30, 2022, 13:04 Leif H Silli verktystell@russisk.no wrote:
Hei
- Kva er den (mest) autoratative staden å lasta ned ordlister for
ordeling ifrå? (Hyphenation-ordlister)
- Eg har prøvd å lasta ned ordlister frå no.speling.org, men den sida
er nett no utilgjengeleg. Er dette permanent?
- Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for
bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med eit bruksdøme:
Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå tug.ctan.org[1]. So har eg installert listene, etter beste evne, forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den orddelinga som skjer fylgjer norske orddelingsreglar, eller om det berre er engelsk orddeling applisert på norsk tekst eg ser. I tilfelle det siste, kan feilen anten liggja i ordlistene ifrå tug.ctan.org … eller det Prince XML som fell tilbake til å nytta engelsk orddeliste, i mangel på (korrekt installert) norske orddelingslister.
Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar tekst skulle vera delt i to like tekstar, der den eine sida skulle vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) orddeling. Når ein så køyrer testteksten i sitt eige program, skal teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte som teksten med manuell/fast/hard orddeling.
Ei god tekstsuite må ha ord som gjev attkjennelege utslag. Og sidan norsk orddeling vel kan utførast på litt ulike måtar, må ei slik testsuite helst implementera fleire orddelingsmåtar/-alternativ … eller i det minste dokumentera den bestemte orddelingsmåten som er forsøkt teke implementert.
[1]
http://tug.ctan.org/tex-archive/language/hyph-utf8/tex/generic/hyph-utf8/pat...
Beste helsing Leif Halvard Silli _______________________________________________ E-postlista l10n-no http://lister.huftis.org/listinfo.cgi/l10n-no-huftis.org
Javisst. Det du nemner har med (programmerings)logikk å gjera. Eg veit ikkje om dei vanlege, kjeldeopne orddelingslister er i stand til å handtera slike ting ...
PS: Litt godt at du skreiv «odeling», ettersom eg sjølv jo har prestert å skriva «ordeling» – som jo er noko anna enn «orddeling» … ha, ha …
Leif Halvard Silli
Den 2022-01-30 19:12 skreiv Arno Teigseth:
NB Kan være du trenger mer logikk enn bare en odliste her, i tilfeller med trippelkonsonant: trekkraft
Trekk- kraft
:) Mvh Arno
On Sun, Jan 30, 2022, 13:04 Leif H Silli verktystell@russisk.no wrote:
Hei
- Kva er den (mest) autoratative staden å lasta ned ordlister for
ordeling ifrå? (Hyphenation-ordlister)
- Eg har prøvd å lasta ned ordlister frå no.speling.org, men den sida
er nett no utilgjengeleg. Er dette permanent?
- Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for
bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med eit bruksdøme:
Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå tug.ctan.org[1]. So har eg installert listene, etter beste evne, forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den orddelinga som skjer fylgjer norske orddelingsreglar, eller om det berre er engelsk orddeling applisert på norsk tekst eg ser. I tilfelle det siste, kan feilen anten liggja i ordlistene ifrå tug.ctan.org … eller det Prince XML som fell tilbake til å nytta engelsk orddeliste, i mangel på (korrekt installert) norske orddelingslister.
Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar tekst skulle vera delt i to like tekstar, der den eine sida skulle vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) orddeling. Når ein så køyrer testteksten i sitt eige program, skal teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte som teksten med manuell/fast/hard orddeling.
Ei god tekstsuite må ha ord som gjev attkjennelege utslag. Og sidan norsk orddeling vel kan utførast på litt ulike måtar, må ei slik testsuite helst implementera fleire orddelingsmåtar/-alternativ … eller i det minste dokumentera den bestemte orddelingsmåten som er forsøkt teke implementert.
[1]
http://tug.ctan.org/tex-archive/language/hyph-utf8/tex/generic/hyph-utf8/pat...
Beste helsing Leif Halvard Silli _______________________________________________ E-postlista l10n-no http://lister.huftis.org/listinfo.cgi/l10n-no-huftis.org
E-postlista l10n-no http://lister.huftis.org/listinfo.cgi/l10n-no-huftis.org
Leif H Silli skreiv 30.01.2022 19:04:
Hei
- Kva er den (mest) autoratative staden å lasta ned ordlister for
ordeling ifrå? (Hyphenation-ordlister)
Det kjem an på kva du meiner med orddeling. Viss det er snakk om ordlister for å finna ut korleis ord er sette saman, er den *autoritative* kjelda leddanalyse-databasen i Norsk ordbank: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-41/
Der står òg uvanlege orddelingar, som hotelløyve (= hotell + løyve, der trippelkonsonant vert til dobbelkonsonant), og birøktar (bie + røktar, der e-en fell vekk).
Men det står ingenting om deling av ikkje-samansette ord. Viss du heller vil ha såkalla orddelingsmønster (som kan brukast til dette), for bruk i TeX og liknande, finst det ingen *autoritative*, men eg anbefaler Selberg sine mønster (som igjen er ei justering av Kleveland sine mønster): https://ctan.org/pkg/nohyph Det er vel dei som vert lasta automatisk om du vel (ny)norsk som språk i LaTeX.
Litt kuriosa: Det finst to (kjende) ord som vert delte forskjellig på nynorsk og bokmål. Det er «attende» og «betre» (men tydinga er altså forskjellig på dei to målformene.)
- Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for
bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med eit bruksdøme:
Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå tug.ctan.org[1]. So har eg installert listene, etter beste evne, forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den orddelinga som skjer fylgjer norske orddelingsreglar, eller om det berre er engelsk orddeling applisert på norsk tekst eg ser.
Tru meg, det oppdagar du *veldig* fort. Viss orddelinga ser nokolunde riktig ut, har du norsk orddeling. Viss du brukar engelske orddelingsmønster, vert det aller meste feil. Du får «nyn-orsk» og «bind-es-trek», for eksempel.
Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar tekst skulle vera delt i to like tekstar, der den eine sida skulle vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) orddeling. Når ein så køyrer testteksten i sitt eige program, skal teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte som teksten med manuell/fast/hard orddeling.
Leddanalysefilene frå Norsk ordbank kan jo brukast til å finna hovudorddelingane.
Og viss du vil ha nokre skikkelege (og litt humoristiske) utfordringar for orddelingsalgoritmen, kan du sjå på Orddeling-stoppen min (ikkje oppdatert på mange år): https://huftis.org/artiklar/orddeling-stoppen/
Og viss du er interessert i automatisk orddeling generelt, anbefaler eg Eivind Mikael Lindbråten si (usedvanlege typografisk vakre) masteroppgåve om emnet, som du kan lasta ned i PDF-format her: https://www.duo.uio.no/handle/10852/44768
Karl Ove Hufthammer karl@huftis.org čálii:
litt humoristiske) utfordringar for orddelingsalgoritme
Kanskje litt off-topic no, men det dukkar av og til opp slike fine feilanalysar av samansette ord i maskinomsetjing; har samla nokre her: https://wiki.apertium.org/wiki/User:Unhammer#Compounding_is_fun
Hallo!
Den 2022-01-31 21:22 skreiv Karl Ove Hufthammer:
Leif H Silli skreiv 30.01.2022 19:04:
Hei
- Kva er den (mest) autoratative staden å lasta ned ordlister for
ordeling ifrå? (Hyphenation-ordlister)
Det kjem an på kva du meiner med orddeling. Viss det er snakk om ordlister for å finna ut korleis ord er sette saman, er den *autoritative* kjelda leddanalyse-databasen i Norsk ordbank: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-41/
Der står òg uvanlege orddelingar, som hotelløyve (= hotell + løyve, der trippelkonsonant vert til dobbelkonsonant), og birøktar (bie + røktar, der e-en fell vekk).
Men det står ingenting om deling av ikkje-samansette ord.
Eg er vel ute etter det som Språkrådet i ein artikkel kallar «orddeling ved linjeskift»: https://www.sprakradet.no/sprakhjelp/Skriveregler/Orddeling_ved_linjeskift/
Viss du heller vil ha såkalla orddelingsmønster (som kan brukast til dette), for bruk i TeX og liknande, finst det ingen *autoritative*, men eg anbefaler Selberg sine mønster (som igjen er ei justering av Kleveland sine mønster): https://ctan.org/pkg/nohyph Det er vel dei som vert lasta automatisk om du vel (ny)norsk som språk i LaTeX.
Er den “nohyph”-pakka innhaldsmessig identisk med "hyph-nb.hyp.txt”, "hyph-nb.pat.txt”, "hyph-nn.hyp.txt” og "hyph-nn.pat.txt” som ein finn i det tug.ctan.org-arkivet som eg synte til? (Eg ser iallfall at *.hyp.txt-filene der viser at «attende» og «betre» skal delast ulikt på nynorsk og bokmål …)
http://tug.ctan.org/tex-archive/language/hyph-utf8/tex/generic/hyph-utf8/pat...
Litt kuriosa: Det finst to (kjende) ord som vert delte forskjellig på nynorsk og bokmål. Det er «attende» og «betre» (men tydinga er altså forskjellig på dei to målformene.)
Det du nemner der er vel ikkje heilt rett. Iallfall litt feil - sidan det eine av dei to orda også står i Bokmålsordboka. Nemleg: «attende» står òg i Bokmålsordboka. Og dermed er tydinga lik, og orddeling ved lineskift vert dermed også lik. Eller, for å uttrykkja meg rettere: På bokmål må orddeling ved lineskift ta omsyn til om det er adverbet «attende» eller talordet «attende» som er meint. Medan det på nynorsk berre er «att-ende» som er brukande.
- Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for
bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med eit bruksdøme:
Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå tug.ctan.org[1]. So har eg installert listene, etter beste evne, forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den orddelinga som skjer fylgjer norske orddelingsreglar, eller om det berre er engelsk orddeling applisert på norsk tekst eg ser.
Tru meg, det oppdagar du *veldig* fort. Viss orddelinga ser nokolunde riktig ut, har du norsk orddeling. Viss du brukar engelske orddelingsmønster, vert det aller meste feil. Du får «nyn-orsk» og «bind-es-trek», for eksempel.
Tja. I farten, er det veldig fort både å gjera feil og å ikkje få med seg det ein burde fått med seg. Men det er klart at eg kan iallfall prøva å bruka «attende» og «betre» som kontrollord ...
Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar tekst skulle vera delt i to like tekstar, der den eine sida skulle vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) orddeling. Når ein så køyrer testteksten i sitt eige program, skal teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte som teksten med manuell/fast/hard orddeling.
Leddanalysefilene frå Norsk ordbank kan jo brukast til å finna hovudorddelingane.
Og viss du vil ha nokre skikkelege (og litt humoristiske) utfordringar for orddelingsalgoritmen, kan du sjå på Orddeling-stoppen min (ikkje oppdatert på mange år): https://huftis.org/artiklar/orddeling-stoppen/
Og viss du er interessert i automatisk orddeling generelt, anbefaler eg Eivind Mikael Lindbråten si (usedvanlege typografisk vakre) masteroppgåve om emnet, som du kan lasta ned i PDF-format her: https://www.duo.uio.no/handle/10852/44768
Takk. Skal lesa. Men førebels må eg konsentrera meg om å installera dei tex-listene frå tug.ctan.org og sjekka at dei fungerer … — leif halvard silli