<p dir="ltr">Hei,</p>
<p dir="ltr">Jeg mener å huske at dette har blitt diskutert tidligere her og at noen hadde funnet ut at disse tegnkodingsproblemene har oppstått før release av sosi-filene, men jeg har ikke sjekket dette selv. Hvis det er mulig å finne en en-til-en mapping mellom bokstavfeil i datasettet med riktige bokstaver, er dette selvfølgelig foretrukket. Men jeg tror det ble observert at så enkelt er det ikke. En liste over skrivefeil vil dermed løse det selv om det kanskje vil bli litt ekstra jobb å få den ferdig.</p>
<p dir="ltr">Mvh<br>
Ruben</p>
<div class="gmail_quote">29. sep. 2014 00:05 skrev &quot;Gnonthgol&quot; &lt;<a href="mailto:gnonthgol@gmail.com">gnonthgol@gmail.com</a>&gt; følgende:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Den 28. sep. 2014 23:54, Ruben Undheim skreiv:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hei,<br>
<br>
addrnodeimport-programmet bruker nå en liste over skrivefeil i<br>
Kartverkets data når den genererer opplysninger:<br>
     <a href="https://github.com/rubund/addrnodeimport/blob/master/xml/corrections.xml" target="_blank">https://github.com/rubund/<u></u>addrnodeimport/blob/master/<u></u>xml/corrections.xml</a><br>
<br>
Dette har spesielt økt prosenten vist for Kautokeino og Karasjok på<br>
<a href="http://osm.beebeetle.com/addrnodeimportstatus.php" target="_blank">http://osm.beebeetle.com/<u></u>addrnodeimportstatus.php</a><br>
</blockquote>
<br>
Det er litt mistenklig liste. Det ser ut som feil med tegnsettet. SOSI filene frå Kartverket kjem i ISO-8859-10 som standard, dette er eit teiknsett som inneholder samiske teikn. Sosi2osm konverterer dette til UTF-8 som er brukt i XML formatet til OSM. Det virkar som om ein eller annan plass blir namna konvertert til ASCII og ukjende teikn erstatta med ?.<br>
<br>
Kan du dobbeltskjekke at sosi2osm gir UTF-8 filer med korekte samiske teikn, og at python koden har det korrekte teiknsettet satt over alt?<br>
<br>
Knut<br>
</blockquote></div>