- Meggyi001: Nyilvános wc-k.....még mindig hiánypótló...
- Butcher82: Retro - műanyag fehérítés
- eBay-es kütyük kis pénzért
- Luck Dragon: Asszociációs játék. :)
- btz: Internet fejlesztés országosan!
- sziku69: Fűzzük össze a szavakat :)
- Elektromos rásegítésű kerékpárok
- Geri Bátyó: Megint tahó voltam – SZEMÉLYISÉGFEJLŐDÉS
- D1Rect: Nagy "hülyétkapokazapróktól" topik
- sziku69: Szólánc.
-
LOGOUT
Új hozzászólás Aktív témák
-
dqdb
nagyúr
válasz
gordonfreemN #17612 üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- Haladó fájlrendszerek, de mire jók? Ext4 vs Btrfs vs ZFS vs APFS
- Kerékpárosok, bringások ide!
- Hobby elektronika
- Szinte játékpénzért megvehető a Honor Play 10C
- Hobby rádiós topik
- NVIDIA GeForce RTX 4080 /4080S / 4090 (AD103 / 102)
- AMD Ryzen 9 / 7 / 5 7***(X) "Zen 4" (AM5)
- Milyen légkondit a lakásba?
- Horgász topik
- Meggyi001: Nyilvános wc-k.....még mindig hiánypótló...
- További aktív témák...
- Pc rx7600 xt 16gb
- Eladó Konfig I5-10400F 32GB DDR4 1TB SSD RTX2060 Super 8GB!
- Meta Quest 3 (128GB) VR szemüveg megannyi kiegészítővel - szinte új állapotban, garanciális
- Eladó GAMER konfig! I5-12400F 512GB SSD 1TB HDD 32GB DDR4 RTX3060 12GB!
- iPhone 12 Pro / 128GB / Pacific Blue / Gyári kártyafüggetlen (233)
- HIBÁTLAN iPhone 15 Pro 256GB Natural Titanium -1 ÉV GARANCIA - Kártyafüggetlen, MS3002, 90% Akksi
- Dell Optiplex MT/SFF 3040, 3050, 3060, 3070, 5070, 7060/ Hp ProDesk /SZÁMLA- GARANCIA
- Samsung Galaxy A13 64GB, Kártyafüggetlen, 1 Év Garanciával
- Xiaomi Redmi Note 13 Pro 5G 256GB, Kártyafüggetlen, 1 Év Garanciával
- BESZÁMÍTÁS! Apple Macbook Pro 16" 2019 i9 64GB 1TB 5500M 8GB garanciával hibátlan működéssel
Állásajánlatok
Cég: FOTC
Város: Budapest