Jag upptäckte just att på www.morgenbladet.no är texten sådan här, passerad genom od -c:
0000000 \n \n J e g f 303 245 r o g s 303 245 0000020 s e b a r 302 255 n e 302 255 b i b 0000040 302 255 l i o 302 255 t e 302 255 k e t
Det betyder att det är "soft hyphen" (302 255) instoppat i orden i HTML-texten: "Jag får også se bar-ne-bib-lio-te-ket."
Jag märkte detta när jag i Firefox (2.0.0.8 på Linux) inte kunde söka (Ctrl-F) efter "barnebiblioteket", utan bara efter "bar".
Kanske detta kan användas för att samla in data till ett fritt norskt avstavningsleksikon? Texten i artiklarna är ju skyddad av upphovsrätt (åndsverksloven), men det gäller inte en ordlista som tas fram ur texten.
Laurdag 17. november 2007 skreiv Lars Aronsson:
Kanske detta kan användas för att samla in data till ett fritt norskt avstavningsleksikon? Texten i artiklarna är ju skyddad av upphovsrätt (åndsverksloven), men det gäller inte en ordlista som tas fram ur texten.
Eg er ikkje sikker på eventuelle opphavsrettslige problem, men det er uansett ikkje nødvendig å starta på eit slikt prosjekt, sidan me alt har frie orddelingsmønster som er mykje *betre* enn dei kommersielle orddelings- mønstra: http://home.c2i.net/omselberg/pub/nohyphbx_intro.htm
Karl Ove Hufthammer wrote:
Eg er ikkje sikker på eventuelle opphavsrettslige problem, men det er uansett ikkje nødvendig å starta på eit slikt prosjekt, sidan me alt har frie orddelingsmønster som er mykje *betre* enn dei kommersielle orddelings- mønstra: http://home.c2i.net/omselberg/pub/nohyphbx_intro.htm
I så fall kanske Morgenbladet.no kan brukas till en kontroll? Klarar ditt verktyg pa-paya-sa-lat?
Laurdag 17. november 2007 skreiv Lars Aronsson:
sidan me alt har frie orddelingsmønster som er mykje *betre* enn dei kommersielle orddelings- mønstra: http://home.c2i.net/omselberg/pub/nohyphbx_intro.htm
I så fall kanske Morgenbladet.no kan brukas till en kontroll? Klarar ditt verktyg pa-paya-sa-lat?
Ja, Selbergs orddelingsmønster deler det slik du skriv.