Spracovanie prirodzeného textu: Strojový preklad, sumarizácia a kľúčové slová

Video o sumarizácii textu – pustite si so zvukom, vysvetľujem čo som urobil

Ako súčasť písania knihy Veľký reštart potrebujem mať teraz nad knihou trochu „nadhľad“. Rozhodol som sa preto, že skúsim trošku potrénovať algoritmy na spracovanie prirodzeného textu.

Keďže tieto algoritmy sú lepšie na anglické texty, potreboval som najprv z knihy urobiť strojový preklad. Google Translate aj Bing translate robia dosť dobré preklady, ale majú obmedzenie na cca desať strán textu. Keďže som lenivý a nechcelo sa mi vytvárať niekoľko desiatok dokumentov, prekladať a potom ich spájať, našiel som rozšírenie Translate+ do Google Docs, ktoré dokáže preložiť aj väčšie kusy textu. Nevýhoda je, že som prišiel o všetko formátovanie a obrázky, ale o tie mi ani tak nešlo.

Potom som pomocou jednoduchého skriptu vytvoril naspäť vo formáte Markdown označenia kapitol. A nakoniec som vytvoril jednoduché Python skripty, ktoré z kapitol vytiahli kľúčové slová a vyextrahovali najpodstatnejšie časti.

Výsledok je užitočný, aj keď nie až tak super. Lepšie riešenie by bola abstraktívna sumarizácia textu, použil som algoritmus na extraktívnu. Abstraktívna sumarizácia vytvorí nový text, v ktorom sú podstatné časti, extraktívna iba vyberie najpodstatnejšie časti – teda nepreformuluje vety, iba vyberie najdôležitejšie vety. Keďže môj typický štýl písania je písanie dlhých viet, nie je to až tak užitočný spôsob.

Zdrojové texty nájdete na mojom githube.

O knihe Veľký reštart

Tento text súvisí s mojou knihou Veľký reštart. V nej mapujem spôsoby rozmýšľania v prostredí neistoty, ako dosiahnuť v živote antifragilitu, uvažovať aj v prípade ak neviem predvídať budúcnosť, ako zvýšiť slobodu pomocou opcionality a pod. Táto kniha je voľným pokračovaním knihy Hackni sa o mindsetoch v podnikaní, slobode, živote, kryptomenách a budúcnosti.

Zároveň prebieha crowdfunding kampaň na audioknihu.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *

You can encrypt your comment so that only juraj can read it.