Vraag:
Programma om een ​​CSV-bestand te genereren van een afbeelding met een tabel
Franck Dernoncourt
2016-07-03 23:17:47 UTC
view on stackexchange narkive permalink

Ik ben op zoek naar een programma dat een CSV-bestand kan genereren van een gescande afbeelding of pdf met een tabel

Bijv. als de invoer

a table with three columns

is, zou de uitvoer het overeenkomstige CSV-bestand zijn:

  AIDS Behav, 9712133, 2016 AIDS Care, 8915313, 2016AIDS Educ Prev, 9002873, 2016 ...  

En indien mogelijk:

  • gratis
  • werkt op Windows 7
  • neemt een ander afbeeldingsformaat en PDF als invoer aan
Frank, je hebt een hoge rep op S.O, en je top-tag is Python. Codeer een Python-script voor OCR, breek elke regel in woorden en de laatste twee woorden zijn NimId & jaar toegevoegd; alles daarvoor is de Journal Abbreviation. Het lijkt me triviaal. Ik weet dat de tijd kort is en je zou liever een kant-en-klare oplossing willen, maar ik vermoed dat je er zelf een moet rollen: - /
Drie antwoorden:
myusuf3
2017-07-03 22:45:48 UTC
view on stackexchange narkive permalink

Ik heb iets geweldigs gevonden http://tabula.technology/ dit is de beste tool die we hebben! Het is ook gratis. Het werkt heel goed met PDF-bestanden, maar werkt zelfs redelijk goed met goed gevormde tabellen zoals hierboven die afbeeldingen zijn.

Geweldige interface en geweldig om te gebruiken.

Het is open source (MIT-licentie) en de broncode is beschikbaar op https://github.com/tabulapdf/tabula

@mysusuf3 Heeft u enig resultaat van hun nauwkeurigheid?
@TedTaylorofLife als de gegevens en tekst zijn gecodeerd in pdf met superhoge nauwkeurigheid.
andselisk
2017-07-05 18:17:04 UTC
view on stackexchange narkive permalink

ABBYY FineReader doet het erg goed als het gaat om optische herkenning. Waarschijnlijk de beste op de markt. En het kan ook exporteren naar * .csv, naast vele andere formaten. Het nadeel is dat het niet gratis is en dat deze specifieke versie alleen werkt op Windows .

Er bestaat een andere versie voor macOS , maar deze mist veel functies en is over het algemeen langzamer (subjectief) dan een versie voor Windows. Van eerdere versies van FineReader is ook bekend dat ze werken op Linux via Wine, hoewel ze ook nogal onstabiel zijn.

Hier is een screenshot van het programma met je gegevens:

enter image description here

Dat is het resultaat:

  Journal Abbreviation, NlmlD, Y ear Added to MTIFL AIDS Behav, 9712133,2016 AIDS Care , 8915313,2016 AIDS Educ Prev, 9002873,2016 AIDS Patient Care STDS, 9607225,2016 AJNR Am J Neuroradiol, 8003708,2015 ASAIO J, 9204109,2016 Acad Emerg Med, 9418450,2014 Acad Radiol, 9440159,2016 Accid Anal Prev, 1254476,2015 Acta Chir Iugosl, 0372631,2015 Acta Clin Croat, 9425483,2015 Acta Diabetol, 9200299,2016 Acta Med Croatica, 9208249,2015 Acta Med Iran, 14540050R, 2015 Acta Neurochir (Wien), 0 151000,2014 Acta Neurol Scand, 0370336,2015 Acta Odontol Scand, 0370344,2015 Acta Psychol (Amst), 0370366,2013 Acta Trop, 0370374,2015 Adv Ther, 8611864,2015 Aging Res Rev, 101128963,2016 Aging Clin Exp Res, 101132995,2015 Aliment Pharmacol Ther, 8707234,2014 Am J Addict, 9208821,2015 Am J Sports Med, 7609541,2014  

OCR zelf duurde ongeveer 5 seconden op een oude Thinkpad-laptop.

@TedTaylorofLife-versie voor MacOS bestaat, maar het mist veel functies van zijn Windows-tegenhanger, inclusief het leren van patronen voor gebruikers en woordenboekondersteuning. Het bleef ook hangen en bevroor op Sierra en vertoont over het algemeen slechtere prestaties op macOS. Als je een andere ervaring hebt gehad op macOS met FR, ben ik erg blij voor je, maar zolang dit niet mijn geval was, heb ik besloten om niet te beweren dat het volledig functioneel is op macOS.
@TedTaylorofLife Ik heb je expliciet verteld dat dit twee verschillende producten zijn, en zo te zien heb je geen van beide gebruikt (behalve de verouderde versie van je Fujitsu-scanner) om een ​​juist oordeel te vellen. Ik denk ook dat u zich op de verkeerde website bevindt. Dit is geen 4chan waar mensen elkaar beledigen met capslock. Je opmerkingen zijn net gemarkeerd.
Als er een versie is die op MacOS draait, dan is de bewering dat deze alleen op Windows draait onwaar. Als je duidelijk wilt maken dat de MacOS-versie minder capabel is, zeg dat dan. U heeft echter een onjuiste verklaring vetgedrukt. Het is niet voldoende om op de opmerkingen te vertrouwen om uw antwoord op te lossen.
Ik heb de relevante informatie toegevoegd met betrekking tot macOS- en Linux-ondersteuning voor jullie beiden, heren. En er was geen onjuiste verklaring. Ik heb een versie gebruikt die alleen op Windows-platform bestaat. Hopelijk was dit leerzaam voor jullie beiden.
Ted Taylor of Life
2017-07-08 16:04:19 UTC
view on stackexchange narkive permalink

Methode

Ik heb je afbeelding die je hebt gepost en uitgevoerd met mijn scansnap ix500-scanner. (Koop een oudere scanner op craigslist voor minder dan 200 dollar en ontvang alle software-updates)

OS

Niet Windows 10, maar Windows 7

Software

Niet gratis, maar het heeft Abby Reader 5.0 die werd geleverd met scanner Scansnap Abby Reader for Excel

Resultaten

Ik druk op de scanknop en druk op Abby scan naar Excel en het genereerde een .xls-bestand, geen csv zoals gevraagd. Abby Fine Reader Results Journal Afkorting NlmlD Jaar toegevoegd aan MTIFLAIDS Behav 9712133 2016AIDS Care 8915313 2016AIDS Educ Vorige 9002873 2016AIDS Patient Care STDS 9607225 2016AJNR Am J Neuroradiol 8.003.708 2015ASAIOJ 9.204.109 2016Acad Emerg Med 9.418.450 2014Acad Radiol 9.440.159 2016Accid Anal Vorige 1.254.476 2015Acta Chir Iugosl 0.372.631 2015Acta Clin Kroaat 9.425.483 2015Acta Diabetol 9.200.299 2016Acta Med Croatica 9.208.249 2015Acta Med Iran 14540050R 2015Acta Neurochir (Wien) 0.151.000 2014Acta Neurol Scand 0.370.336 2015Acta Odontol Scand 0370344 2015 Acta Psychol (Amst) 0370366 2013 Acta Trop 0370374 2015 Adv Ther 861186 4 2015Ageing Res Rev 101128963 2016Aging Clin Exp Res 101132995 2015Aliment Pharmacol Ther 8707234 2014Am J Addict 9208821 2015Am J Sports Med 7609541 2014

Alternatieven

ABBYY FineReader-motor voor Windows

ABBYY FineReader Engine voor Windows

Voordelen 1. Werkt op WindowsCons 1. Niet gratis 2. Installatie is misschien niet triviaal

ABBYY FineReader Engine for Windows

Alternatief nummer 2

Google Vision OCR API

Nadelen accepteert geen pdf's

Methode

Sla je afbeelding op als .png en test het en krijg deze resultaten

OS

Werkt op elk besturingssysteem.

Gebruiksgemak

Niet triviaal, maar kan uitvoer naar csv krijgen

Resultaten

OCR API Results "Journal Afkorting [AIDS Behav [AIDS Care [AIDS Educ Prev [AIDS Patient Care STDS [AJNR Am J Neuroradiol [ASAIO J [Acad Emerg Med [Acad Radiol [Accid Prev [Acta Chir lugosl [Acta Clin Croat [Acta Diabetol [Acta Med Croatica [Acta Med Iran [Acta Neurochir (Wien) [Acta Neurol Scand [Acta Odontol Scand [Acta Psychol (Amst) [Acta Trop [Adv Ther [Aging Res Rev i [Aging Clin Exp Res [Aliment Pharmacol Ther [Am ​​J Addict [ Am J Sports Med iii NImlD 9712133 8915313 9002873 9607225 8003708 9204109 9418450 9440159 1254476 0372631 9425483 9200299 9208249 1454005OR 0151000 0370336 0370344 0370366 0370374 8611864 1011289 OTI88 2016 101132 2016 2016 O 2015 O 2015 O 2015 O 2016 O 2015 O 2015 O 2014 2015 O 2015 O 2013 O 2015 O 2015 O 2016 O 2015 O 2014 2015 O 2014 O ”

Ik hoop dat je weet waar [CSV] (https://en.wikipedia.org/wiki/Comma-separated_values) voor staat. Omdat geen van uw uitvoer CSV bevat. En dat het kopiëren van andermans antwoorden geen goede zet is.
Zorg ervoor dat u het doorleest als u iets koppelt. Ik ben me ervan bewust dat het formaat dat ik heb gepost geen gestandaardiseerde csvs is. De man krijgt zijn doctoraat van MIT, ik ben er vrij zeker van dat hij het kan uitzoeken. Bovendien retourneert de Vision API uitvoer in json-bestand of csv. CSV posten op SE is niet zo eenvoudig. Gewoon een fyi van de link die je hebt gepost. "Het CSV-bestandsformaat is niet gestandaardiseerd. Het basisidee van het scheiden van velden met een komma is duidelijk, maar dat idee wordt ingewikkeld wanneer de veldgegevens ook komma's of zelfs ingesloten regeleinden bevatten."


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...