Jag upptäckte just att på www.morgenbladet.no är texten sådan här, passerad genom od -c:
0000000 \n \n J e g f 303 245 r o g s 303 245 0000020 s e b a r 302 255 n e 302 255 b i b 0000040 302 255 l i o 302 255 t e 302 255 k e t
Det betyder att det är "soft hyphen" (302 255) instoppat i orden i HTML-texten: "Jag får også se bar-ne-bib-lio-te-ket."
Jag märkte detta när jag i Firefox (2.0.0.8 på Linux) inte kunde söka (Ctrl-F) efter "barnebiblioteket", utan bara efter "bar".
Kanske detta kan användas för att samla in data till ett fritt norskt avstavningsleksikon? Texten i artiklarna är ju skyddad av upphovsrätt (åndsverksloven), men det gäller inte en ordlista som tas fram ur texten.