ΟΣΔΕΛ


Άλλο «Αναζήτηση» (Search) και άλλο «Εξόρυξη Κειμένων» (Text Mining) στο internet. Τι πρέπει να ξέρουν οι εκδότες.

Εξηγεί ο διαπρεπής Έλληνας επιστήμονας κ. Χαράλαμπος Μαρμάνης.


Ο Χαράλαμπος Μαρμάνης, Τεχνικός Διευθυντής και Αντιπρόεδρος, του Τμήματος Μηχανολογικού Σχεδιασμού και προϊόντων στον αμερικανικό Οργανισμό Συλλογικής Διαχείρισης, Copyright Clearance Center, εξετάζει τις έννοιες πίσω από την «αναζήτηση» (search)  και την «εξόρυξη κειμένων» (text mining)[1] και τονίζει τους λόγους για τους οποίους είναι αναγκαίο οι εκδότες να κατανοήσουν τις διαφορές μεταξύ των δύο όρων ώστε να τους χρησιμοποιήσουν με τα καλύτερα δυνατά αποτελέσματα.

 

«Επειδή έχω γράψει πολλά βιβλία με θέμα την “αναζήτηση” και ήμουν επικεφαλής της ομάδας, η οποία σχεδίασε ένα προϊόν για την εξόρυξη κειμένων από άρθρα επιστημονικών περιοδικών, συχνά με ρωτούν ποια είναι η διαφορά μεταξύ “Αναζήτησης” και “Εξόρυξης Κειμένων”. Διαπιστώνω ότι οι δύο όροι συχνά συγχέονται. Αν δεν εργάζεται κανείς καθημερινά στον τομέα της τεχνολογίας, η σύγχυση είναι κατανοητή. Ωστόσο, το να γνωρίζει κανείς τις διαφορές μπορεί να προσφέρει νέες επιχειρηματικές ευκαιρίες για τους εκδότες. Και οι δύο λειτουργίες έχουν να κάνουν με την εφαρμογή αλγορίθμων σε κείμενα φυσικής γλώσσας και να αντιμετωπίσουν εξίσου το γεγονός ότι σε αντίθεση με τα «καθαρά δεδομένα», το κείμενο είναι «μπέρδεμα». Το κείμενο ως μορφή δεδομένων είναι αδόμητο, άμορφο και δύσκολο να το χειριστεί κανείς αλγοριθμικά.

 

Οι προκλήσεις που σχετίζονται με το κείμενο είναι κοινές για την «αναζήτηση» και την «εξόρυξη κειμένων». Εντούτοις, λεπτομέρειες που αφορούν στην εισαγωγή δεδομένων, τις αναλυτικές τεχνικές, την εξαγωγή δεδομένων, και τέλος, τη χρήση, διαφέρουν σημαντικά. Για χρόνια οι εκδότες ασχολήθηκαν πολύ με τη βελτιστοποίηση των τεχνικών σε μηχανές αναζήτησης (SEO), με στόχο οι χρήστες να ανακαλύπτουν πολύ πιο εύκολα και γρήγορα τα έργα τους. Όμως, καθώς ζητείται ολοένα και περισσότερο από τους εκδότες να επιτρέπουν την εξόρυξη κειμένων στο περιεχόμενό τους, οι ίδιοι εισέρχονται σε μια αχαρτογράφητη, για αυτούς, περιοχή, η οποία είναι πολύ διαφορετική από τις ανοιχτές μηχανές αναζήτησης. Συνεπώς είναι πλέον εξαιρετικά σημαντικό να κατανοήσουν τη διαφορά μεταξύ αυτών των δύο ώστε να επιλέξουν τις βέλτιστες στρατηγικές επιχειρηματικότητας και αδειοδότησης για κάθε περίπτωση.

 

Καταρχάς, θα ήθελα να περιγράψω τις βασικές έννοιες-κλειδιά για κάθε τομέα. «Αναζήτηση» σημαίνει ανάκληση κειμένων με βάση συγκεκριμένους όρους. Σκεφτείτε, παραδείγματος χάριν, την έρευνα που κάνετε συνήθως στο διαδίκτυο σε γνωστές μηχανές αναζήτησης όπως οι Google, Yahoo ή Bing. Κατά την αναζήτηση, οι συνήθεις ενέργειες που εκτελεί το λογισμικό, βασίζονται στην ευρετηρίαση και είναι σχεδιασμένες να ανακαλούν κείμενα. Συνεπώς, η επεξεργασία ευρετηρίασης έχει στόχο να δημιουργήσει έναν πίνακα ανεύρεσης που οργανώνει τα έγγραφα σύμφωνα με τις λέξεις που περιέχουν. Το αποτέλεσμα είναι συνήθως ένας υπερ-σύνδεσμος σε κείμενο/πληροφορίες που φιλοξενούνται αλλού, μαζί με μικρό απόσπασμα που περιγράφει τι θα βρει ο χρήστης στην άλλη άκρη του συνδέσμου. Από αυτά τα συστήματα δεν προκύπτουν καινούργιες πληροφορίες από τα κείμενα μέσω της επεξεργασίας που χρησιμοποιείται για να δημιουργηθεί το ευρετήριο αναζήτησης. Ο σκοπός είναι να βρεθεί το υπάρχον έργο ώστε να αξιοποιηθεί το περιεχόμενό του.

 

Η «εξόρυξη κειμένων» είναι λιγότερο κατανοητή στο ευρύ κοινό. Όμως, αποτελεί ένα καλά ανεπτυγμένο πεδίο που ασχολείται με την ανάλυση (και όχι την εύρεση) ενός κειμένου. Δηλαδή, ενώ η εξόρυξη κειμένων μπορεί ορισμένες φορές να ασχολείται με «μετα-κειμενικά» θέματα – παραδείγματος χάριν την ανίχνευση της ιστορίας της επιστήμης, μετρώντας τις εμφανίσεις μίας συγκεκριμένης φράσης (π.χ. γρίπη των πουλερικών) σε άρθρα – πιο συχνά ο στόχος είναι να αντληθούν διατυπωμένες πληροφορίες που είναι χρήσιμες για συγκεκριμένους σκοπούς, όχι μόνο για να βρεθούν, να συνδεθούν και να ανακληθούν κείμενα που περιέχουν συγκεκριμένα στοιχεία.

 

Τα εργαλεία εξόρυξης κειμένων μπορούν να πετύχουν κάτι τέτοιο επιτρέποντας στους υπολογιστές να επεξεργαστούν γρήγορα χιλιάδες άρθρα και να ενσωματώσουν πλούσιες πληροφορίες. Ορισμένα εργαλεία στηρίζονται στην ανάλυση του κειμένου που περιέχεται στα έγγραφα και την εφαρμογή συγκεκριμένων αλγορίθμων που μετρούν αποτελεσματικά τις λέξεις-στόχους. Άλλα εργαλεία «σκάβουν» βαθύτερα και αντλούν τη βασική γλωσσική δομή και νόημα (όπως με την αναγνώριση ουσιαστικών ή του γένους των λέξεων) ή ακόμα αναλύουν την πλήρη γραμματική δομή εκατομμυρίων προτάσεων με στόχο να αποκτηθούν συγκεκριμένες γνώσεις μέσα από τον στιλ γραφής του συγγραφέα. Η άντληση δεδομένων μαζί με τις ερμηνείες και τις γνώμες του συγγραφέα, μέσα από ένα ευρύτατο σώμα κειμένων, είναι μία ιδιαιτέρως εξελιγμένη προσέγγιση που μπορεί να προσφέρει ακριβείς και διεξοδικές πληροφορίες, και σε επιχειρηματικό πλαίσιο, προσφέρει πολύ μεγαλύτερη αξία από την απλή καταμέτρηση λέξεων.

 

 

Αντίθετα από την αναζήτηση, το αποτέλεσμα της εξόρυξης κειμένων μπορεί να ποικίλει ανάλογα με τον τρόπο που επιθυμεί ο ερευνητής να χρησιμοποιήσει τα αποτελέσματα. Σε ορισμένα περιβάλλοντα, το αποτέλεσμα είναι ψηφιακό και σχεδιασμένο να υποβληθεί σε μηχανική επεξεργασία. Σε άλλες περιπτώσεις, όπως τη χρήση εξόρυξης κειμένων για την εμπορική προώθηση προϊόντων και υπηρεσιών, το τελικό αποτέλεσμα θα είναι ένα αναγνώσιμο κείμενο. Με άλλα λόγια, ακόμα και όταν γίνεται εξόρυξη κειμένου, ορισμένες φορές ο χρήστης χρειάζεται - και λαμβάνει- το πλήρες άρθρο.

 

Παρόλο που τόσο η αναζήτηση όσο και η εξόρυξη κειμένων στοχεύουν στην ανάλυση δεδομένων και την λεξικολογική ανάλυση εγγράφων, υπάρχουν σημαντικές διαφορές τις οποίες ένας εκδότης πρέπει να λάβει υπόψη του όταν αποφασίζει να επενδύσει είτε σε εξόρυξη κειμένων είτε σε αναζήτηση.

1. Στην εξόρυξη κειμένων η επεξεργασία και ανάλυση γίνεται συχνά ανά project. Εδώ το «πως, γιατί και τι» είναι απείρως μεταβαλλόμενα και είναι δύσκολο να προβλεφθεί με ακρίβεια η εισαγωγή δεδομένων, οι επεξεργασίες και τα αποτελέσματα που απαιτούνται, αντίθετα από ό,τι συμβαίνει στη λειτουργικότητα των μηχανών αναζήτησης. Παραδείγματος χάριν, ανάλογα με τη χρήση του ενδιαφερόμενου στην εξόρυξη κειμένων, το αποτέλεσμα μπορεί να είναι στοιχεία, δεδομένα, σύνδεσμοι ή πλήρης παρουσίαση, σε αντίθεση με τους απλούς υπερσυνδέσμους που αποτελούν το αποτέλεσμα της αναζήτησης.

2. Η αναζήτηση αφορά στην εύρεση μιας ομάδας σχετικών κειμένων, καθένα από τα οποία εξετάζεται μεμονωμένα από τον αλγόριθμο. Εάν εφαρμοστεί σε ένα μόνο έγγραφο, η διαδικασία θα αποδώσει το ίδιο αποτέλεσμα για το συγκεκριμένο έγγραφο. Η εξόρυξη κειμένων, όμως, αφορά περισσότερο στην  ανακάλυψη και χρήση πληροφοριών που είναι ζωντανά ενσωματωμένες στον ιστό ενός σώματος κειμένων. Εάν αλλάξετε ένα έγγραφο, ο ιστός του σώματος των κειμένων αλλάζει. Η εξόρυξη, συνήθως (αλλά όχι πάντα) χρησιμοποιεί το σύνολο του περιεχομένου. Συνεπώς, η διαδικασία «αναζήτησης» γίνεται  ανά έγγραφο, ενώ η διαδικασία «εξόρυξης» αφορά σε πακέτα εγγράφων και στον τρόπο με τον οποίο τα έγγραφα αυτά σχετίζονται μεταξύ τους

3. Τέλος, η διαδικασία εξόρυξης στοχεύει στην άντληση πληροφοριών «υψηλότερης βαθμίδας» εμπλέκοντας συσχετισμούς πρώτης, δεύτερης και υψηλότερης βαθμίδας που μπορεί να επέλθουν μεταξύ οποιουδήποτε συνδυασμού όρων, δεδομένων ή εκφράσεων εμφανίζονται μέσα στο σώμα κειμένων.

 

 

Συνοψίζοντας, η αναζήτηση και η εξόρυξη κειμένων θα πρέπει να θεωρούνται δύο σαφώς διακριτοί μηχανισμοί επεξεργασίας, με συχνά διαφορετικές εισαγωγές και εξαγωγές δεδομένων και πληροφοριών. Οι εκδότες θα πρέπει να ασχοληθούν και με τους δύο. Όμως εάν δεν τους είναι σαφώς κατανοητοί, θα χάσουν τις μοναδικές ευκαιρίες και δυνατότητες που κάθε ένας από τους μηχανισμούς μπορεί να τους προσφέρει. Στην αναζήτηση το ζητούμενο είναι να βοηθήσουν τους χρήστες να βρουν το συγκεκριμένο περιεχόμενο που ψάχνουν. Η εξόρυξη κειμένων προχωρά πολύ περισσότερο, αναζητώντας πολλαπλά νοήματα στο περιεχόμενο ενός εκδότη ώστε να αντληθεί νέα αξία από τις πληροφορίες. Συνεπώς, είναι αναμενόμενο ότι εφόσον οι ίδιες οι διαδικασίες διαφέρουν, θα διαφέρει και η άδεια που θα παραχωρήσει ο εκδότης για τις επεξεργασίες αναζήτησης και εξόρυξης κειμένων αντίστοιχα.

 

Το κείμενο στα αγγλικά στο blog του κ. Χαράλαμπου Μαρμάνη εδώ

 

 



[1] Περισσότερα για τον όρο Εξόρυξη Κειμένων μπορείτε να βρείτε στον ακόλουθο σύνδεσμο "Στόχος της Επιτροπής είναι να προωθήσει την αποδοτική χρήση της άντλησης κειμένων και δεδομένων κειμένου και εξόρυξης δεδομένων (text and data mining/TDM) για σκοπούς επιστημονικής έρευνας." από http://eur-lex.europa.eu/legal-content/EN/ALL/?uri=celex:52012DC0789


ΟΣΔΕΛ
Σπίτι του Βιβλίου
Θεμιστοκλέους 73, 10683 Αθήνα
Τηλ. 210-3849100

e-mail: info@osdel.gr