- gban: Ingyen kellene, de tegnapra
- bobalazs: Microsoft Copilot és hasonló hülyeségek egyszerű kigyomlálása /örök megoldás/
- Luck Dragon: Asszociációs játék. :)
- D1Rect: Nagy "hülyétkapokazapróktól" topik
- Ismerkedés a Zyxel NSA325 v2-vel
- Magga: PLEX: multimédia az egész lakásban
- Chosen: Intel Arc B580 játék kompatibilitás (2026. 01.)
- lkristóf: Prohardver fórum userscript – hogy lásd, mikor neked válaszoltak
- sziku69: Szólánc.
- sziku69: Fűzzük össze a szavakat :)
-
LOGOUT

Új hozzászólás Aktív témák
-
dqdb
nagyúr
válasz
gordonfreemN
#17612
üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- Villanyszerelés
- Milyen autót vegyek?
- Vezeték nélküli fülhallgatók
- Debrecen és környéke adok-veszek-beszélgetek
- gban: Ingyen kellene, de tegnapra
- Windows 11
- OTP Bank topic
- Google Pixel topik
- MW2 - MW3 játékosok baráti köre
- bobalazs: Microsoft Copilot és hasonló hülyeségek egyszerű kigyomlálása /örök megoldás/
- További aktív témák...
- 2021 Dell Precision 5560 (i9-11950H, RTX A2000, 32 GB, 1 TB NVMe, 500 nit 100%sRGB)
- KEYCHRON V1 Max Knob RGB HU - 2.4 GHz Wireless / Bluetooth / USB-C - GATERON KS-3X1 Milky Yellow Pro
- GIGABYTE GeForce VISION RTX 3070 8GB OC GDDR6 256bit LHR (GV-N3070VISION OC-8GD 2.0) Videokártya
- Garanciális ASUS ROG STRIX 850W 80 PLUS Gold Aura Edition
- Alienware 16 Aurora AC16250 16" QHD+ IPS Core 7 240H RTX 4050 16GB 512GB új akku gar
- Apple iPhone 12 Pro 128GB, Kártyafüggetlen, 1 Év Garanciával
- ÁRGARANCIA!Épített KomPhone Ryzen 5 4500 16/32/64GB RAM RTX 3050 6GB GAMER PC termékbeszámítással
- Dell Latitude 5420 - i5 1145G7 ,16-32GB RAM, SSD, jó akku, számla, 6 hó gar
- Sosemhasznált! HP OmniBook 5 Flip i5-1334U 16GB 512GB 14" áthajtós-érintős FHD+ Gar.: 1 év
- 146 - 147 - 166 - 167 - 168 - 169 - Lenovo Legion Pro 7 (16IRX9H) - Intel Core i9-14900HX, RTX 4090
Állásajánlatok
Cég: Central PC számítógép és laptop szerviz - Pécs
Város: Pécs
Cég: Laptopműhely Bt.
Város: Budapest


