<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"><!-- P {margin-top:0;margin-bottom:0;} --></style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
<p>Hi,</p>
<p><br>
</p>
<p>I'd like to go a little microservices on this. I was thinking that we need a REST service that takes a document and returns its archive format equivalent. This can even autodetect the mimetype using e.g JHOVE [1]. There are other tools as&nbsp;well.</p>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
<br>
</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
I'd like to support ODF natively via LibreOffice, where the service has LibreOffice running and converts all documents to PDF/A.</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
<br>
</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
PDF to PDF/A could be done as Petter suggests.</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
<br>
</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
I would have a microservices style approach and offload it to another REST service as&nbsp;sometimes users will upload big files. The largest PDF file I saw in a Noark system is about 250 MB and when I converted 800 000 documents to archive format a few years ago,
 we saw many random crashes. So I really think it's worthwhile offloading it away from the core.</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
<br>
</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
The documents should be automatically converted to archive format when the case file is closed.&nbsp;</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
<br>
</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
For teaching purposes, I will not support MS Office. So many of my students are unaware of LibreOffice so I think it's worthwhile exposing them only to LibreOffice via nikita. However if we were to support MS Office, we would need a queue system that can talk
 to a PixEdit server to do the conversion. PixEdit works really nicely and is able to work on a per-core basis so scales nicely.</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
<br>
</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
Creating a REST service to convert the documents would be a nice project for someone to attempt.</div>
<div id="divtagdefaultwrapper" style="font-size: 12pt; color: rgb(0, 0, 0); font-family: Calibri, Arial, Helvetica, sans-serif, EmojiFont, 'Apple Color Emoji', 'Segoe UI Emoji', NotoColorEmoji, 'Segoe UI Symbol', 'Android Emoji', EmojiSymbols;" dir="ltr">
<br>
</div>
[1]<a href="https://en.wikipedia.org/wiki/JHOVE" class="OWAAutoLink" id="LPlnk192140" previewremoved="true">https://en.wikipedia.org/wiki/JHOVE</a><br>
<br>
<br>
<div style="color: rgb(0, 0, 0);">
<div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="x_divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> nikita-noark-bounces@nuug.no &lt;nikita-noark-bounces@nuug.no&gt; on behalf of Petter Reinholdtsen &lt;pere@hungry.com&gt;<br>
<b>Sent:</b> Thursday, May 18, 2017 19:11<br>
<b>To:</b> nikita-noark@nuug.no<br>
<b>Subject:</b> Recipes for converting PDF to PDF/A</font>
<div>&nbsp;</div>
</div>
</div>
<font size="2"><span style="font-size:10pt;">
<div class="PlainText"><br>
One task we need to implement in the core, is converting PDF files to<br>
PDF/A if they are not already in PDF/A form.&nbsp; I had a quick look, and<br>
found this recipe on<br>
&lt;URL: <a href="https://unix.stackexchange.com/questions/79516/converting-pdf-to-pdf-a" id="LPlnk252717" previewremoved="true">
https://unix.stackexchange.com/questions/79516/converting-pdf-to-pdf-a</a> &gt;:<br>
<br>
&nbsp; gs -sDEVICE=pdfwrite -q -dNOPAUSE -dBATCH -dNOSAFER&nbsp;&nbsp;&nbsp;&nbsp; \<br>
&nbsp;&nbsp;&nbsp; -dPDFA -dUseCIEColor -sProcessColorModel=DeviceCMYK&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; \<br>
&nbsp;&nbsp;&nbsp; -sOutputFile=Out_PDFA.pdf PDFA_def.ps pdfmarks IN_PDF.pdf<br>
<br>
and<br>
<br>
&nbsp; java FixPrintFlag Out_PDFA.pdf New_verifiablePDFA.pdf<br>
<br>
Based on are recipe available from<br>
&lt;URL: <a href="http://thisthatisnot.blogspot.no/2010/04/free-way-to-convert-existing-pdf-to.html" id="LPlnk414903" previewremoved="true">
http://thisthatisnot.blogspot.no/2010/04/free-way-to-convert-existing-pdf-to.html</a> &gt;.<br>
<br>
I wonder, should this be a task done by a API client, or a task done<br>
internally in the server?&nbsp; What do the rest of you think?&nbsp; I suspect<br>
doing it via the API will either loose some metadata or must be done<br>
using operations that allow us to set metadata that normally should not<br>
be modifyable via the API.<br>
<br>
-- <br>
Happy hacking<br>
Petter Reinholdtsen<br>
_______________________________________________<br>
nikita-noark mailing list<br>
nikita-noark@nuug.no<br>
<a href="https://lists.nuug.no/mailman/listinfo/nikita-noark" id="LPlnk910995" previewremoved="true">https://lists.nuug.no/mailman/listinfo/nikita-noark</a>
<div id="LPBorder_GT_14951277791920.5508362970726455" style="margin-bottom: 20px; overflow: auto; width: 100%; text-indent: 0px;">
<table id="LPContainer_14951277791870.4815080020231419" role="presentation" cellspacing="0" style="width: 90%; position: relative; overflow: auto; padding-top: 20px; padding-bottom: 20px; margin-top: 20px; border-top-width: 1px; border-top-style: dotted; border-top-color: rgb(200, 200, 200); border-bottom-width: 1px; border-bottom-style: dotted; border-bottom-color: rgb(200, 200, 200); background-color: rgb(255, 255, 255);">
<tbody>
<tr valign="top" style="border-spacing: 0px;">
<td id="TextCell_14951277791890.1737173508791725" colspan="2" style="vertical-align: top; position: relative; padding: 0px; display: table-cell;">
<div id="LPRemovePreviewContainer_14951277791890.3193685085685376"></div>
<div id="LPTitle_14951277791900.4173496075025229" style="top: 0px; color: rgb(0, 114, 198); font-weight: normal; font-size: 21px; font-family: wf_segoe-ui_light, 'Segoe UI Light', 'Segoe WP Light', 'Segoe UI', 'Segoe WP', Tahoma, Arial, sans-serif; line-height: 21px;">
<a id="LPUrlAnchor_14951277791900.8158570981598592" href="https://lists.nuug.no/mailman/listinfo/nikita-noark" target="_blank" style="text-decoration: none;">nikita-noark Info Page - NUUG</a></div>
<div id="LPMetadata_14951277791910.6541473814880141" style="margin: 10px 0px 16px; color: rgb(102, 102, 102); font-weight: normal; font-family: wf_segoe-ui_normal, 'Segoe UI', 'Segoe WP', Tahoma, Arial, sans-serif; font-size: 14px; line-height: 14px;">
lists.nuug.no</div>
<div id="LPDescription_14951277791910.2367700170001441" style="display: block; color: rgb(102, 102, 102); font-weight: normal; font-family: wf_segoe-ui_normal, 'Segoe UI', 'Segoe WP', Tahoma, Arial, sans-serif; font-size: 14px; line-height: 20px; max-height: 100px; overflow: hidden;">
To see the collection of prior postings to the list, visit the nikita-noark Archives. Using nikita-noark: To post a message to all the list members ...</div>
</td>
</tr>
</tbody>
</table>
</div>
<br>
<br>
</div>
</span></font></div>
</div>
</body>
</html>