FrameWork: Wrapper Suite
-
Upload
valentine-gaines -
Category
Documents
-
view
19 -
download
3
description
Transcript of FrameWork: Wrapper Suite
![Page 2: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/2.jpg)
Základná architektúra
![Page 3: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/3.jpg)
Program obaľovača
• Obaľovač opísaný ako XML súbor
• Identifikácia akcií
• Prechodov medzi akciami – hierarchia akcií
• Premenné obaľovača
• Vytvorenie inštancie WrapperProgram
• Wrapper pracuje s aktuálnym Kontextom - obsahuje mapu DOM dokumentov, rozšírenie o cookies
![Page 4: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/4.jpg)
Program obaľovača
• Štartovacia akcia
• Výstupný DOM
• Zoznam zapisovačov
• Možnosť krokovania
• http Client – knižnice Jakarta
• html Parser – knižnica NekoHtml
• loadWrapper – parser programu Wrappera
![Page 5: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/5.jpg)
Interpreter
• Vykonanie programu parsera
• Vytvorenie inštancie wrappera
• Priradenie zapisovačov (OutputWriter)
• Nastavenie krokovača
• Spustenie Wrappera (metóda start)
![Page 6: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/6.jpg)
Lokátor uzlov a premenné
• Lokátor uzlov, určuje podstrom, s ktorým sa bude v danom kontexte pracovať
• InDocument – kde sa hľadá
• XPathExp
• RegExp – filtrovanie nájdený uzlov
• Premenné – parametrizovaný reťazec (regulárne výrazy); Product = “processor” Uri = “http://www.products.sk/q=${Product}”
![Page 7: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/7.jpg)
Definované akcie
• Spustenie pomocou metódy execute
• LoadPage – uri, asDocumnet v kontexte
• FollowLink - <a> tagFinder + LoadPage
• WriteObject – objectName v kontexte => zapisoveče
• ExtractData – exktrakcia dát z dokumentu na základe TagFinder, možná filtrácia RegExp, definovanie outPut do variable, objekt v kontexte dokumentu – OutputObjectPath = zjednoseny XPath
![Page 8: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/8.jpg)
Akcie
• DoAllBranches – vykoná svojich následníkov
• DoWhileNextLink – definuje sa lokátor next linky
• ForEachTag – extrahuje podstrom dokumentu a uloží do kontextu ako nový dokument
![Page 9: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/9.jpg)
Spracovanie chýb
• Princíp výnimiek
• Handlere výnimiek:
– StopThrowErrorHandler
– ReturnBackErrorHandler
– IgnoreContinueErrorHandler
– ExecuteCommandErrorHandler
![Page 10: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/10.jpg)
Návrh rozšírenia
• Tvorba rozhrania, učenia (vzory, filtre, komunikačný kanál)
• Vytvorenie XML => tvorba obaľovača – podpora stromu akcií ???
• Zmena akcií ExtractData, WriteObject, rozšírenie akcii o prácu so vzormi
• Súčasťou akcií bude aj lokálny kontext zdedený po predkovi
![Page 11: FrameWork: Wrapper Suite](https://reader031.fdocuments.net/reader031/viewer/2022020417/568136df550346895d9e7c3c/html5/thumbnails/11.jpg)
Ďakujem za pozornosť