Kjetil Torgrim Homme skreiv 17.06.2026 16:08:
Den 15.06.2026 21:51, skreiv Karl Ove Hufthammer:
Elles er det ein teknisk ting å vera obs på: På tidleg 2000-talet strevde me dessverre framleis med bokstavar som æ, ø og å i datasamanheng (sjølv om teiknkodinga UTF-8, som me alle brukar no, vart til tidleg på 1990-talet!). Dei ulike e-postprogramma varierte mykje i kor godt dei handterte slike «internasjonale» teikn (og i om dei var sette rett opp). Det finst derfor ein del meldingar i arkivet der slike særnorske bokstavar ikkje vert viste rett, anten i emnefeltet eller i (heile eller til og med *delar av*) meldingsteksten. Dette er ikkje ein feil med importen; problemet var der for dei som las meldingane den gong då òg. Men det gjer at søk på ord med desse bokstavane ikkje *nødvendigvis* vil finna alle meldingane som faktisk finst. Og det kan vera litt trøblete å lesa meldingane; æ, ø og å kan for eksempel visast som spørsmålsteikn eller som heilt andre teikn (såkalla mojibake). Dette får me berre leva med.
tusen takk for arbeidet, Karl Ove!
prøvde du å gjere automatisk omkoding av det grøvste? ideelt sett skulle sjølvsagt MIME-headers setje charset korrekt, men der det ikkje er satt og meldinga *ikkje* let seg dekode som UTF-8, kan det vere greit å gjette på Latin-1 når det finnest ein eller fleire oktettar av […]
Eg vurderte først å prøva noko slikt, men det var dessverre ikkje fullt så enkelt, så eg slo det frå meg. Ei melding kan vera skriven i éi teiknkoding, verta tolka som ei anna når nokon svarar på ho og tolka som ei anna igjen når nokon så svarar på svaret, slik at den tredje meldinga i praksis vert ei blandinga av tre ulike teiknkodingar.
Det finst for eksempel meldingar i arkivet der bokstaven å vert skriven som både «ÃƒÂ¥», «Ã¥» og «å» i éi og same melding!
Men i praksis er nok dette eit mindre problem enn eg kanskje gav inntrykk av. E-postprogramma pleidde oppgje rett teiknkoding ved *sending*. Det var når andre e-postprogram ikkje tok omsyn til oppgjeven teiknkoding ved *lesing*, at problemet oppstod. Så det er typisk i sitert tekst problemet vert synleg. Det medfører at om ein søker etter eit ord, bør det vera iallfall éi av meldingane i den aktuelle tråden der ordet er koda rett. Og så kan ein vanlegvis¹ nøsta seg gjennom tråden for å lesa heile diskusjonen.
¹ Det var nokre e-postprogram som ikkje tok med «In-Reply-To»- eller «References»-linjer i meldingshovudet, og i slike tilfelle vert ikkje meldingane viste som ein tråd i arkivet.