Ψηφιακή επιμέλεια και επεξεργασία γραπτών πηγών

Άγγελος Σισμάνης (asismani@helit.duth.gr)

Περιγραφή

Καλώς ορίσατε στο εργαστηριακό μάθημα "Ψηφιακή επιμέλεια και επεξεργασία γραπτών πηγών" του Εργαστηρίου Παπυρολογίας και Παλαιογραφίας του Τμήματος Ελληνικής Φιλολογίας του Δ.Π.Θ.

Εναρμονισμένο με τις σύγχρονες επιστημονικές τάσεις, το εργαστηριακό μάθημα περιλαμβάνει πρακτικές ασκήσεις με στόχο την ανάπτυξη ψηφιακών δεξιοτήτων επιμέλειας και επεξεργασίας κειμενικών τεκμηρίων και εν γένει διαχείρισης πρωτογενών γραπτών πηγών πληροφόρησης.

Αναλυτικές πληροφορίες για το περιεχόμενο του μαθήματος είναι διαθέσιμες στον παρακάτω σύνδεσμο.

Περιεχόμενο μαθήματος

Το μάθημα είναι χωρισμένο στις παρακάτω θεματικές ενότητες οι οποίες περιλαμβάνουν την μεταφορά, τεκμηρίωση και οργάνωση των πηγών στον ψηφιακό χώρο, καθώς και την αναπαράσταση, ανάλυση και δημοσίευση της επιστημονικής πληροφορίας που περιέχεται σε αυτές.

Για να δείτε την περιγραφή και τα περιεχόμενα κάθε ενότητας δεν έχετε παρά να πατήσετε πάνω στον τίτλο της.

Η πρόσβαση είναι ελεύθερη και το εκπαιδευτικό υλικό εμπλουτίζεται, διορθώνεται και ανανεώνεται διαρκώς.

 

Θεματικές ενότητες

 

Ενότητα 1. Εισαγωγή στις ψηφιακές ανθρωπιστικές επιστήμες

 

Ενότητα 2. Διαχείριση ψηφιακού περιεχομένου

 

Ενότητα 3. Ψηφιοποίηση τεκμηρίων

Άσκηση DH-01 "Βασικά χαρακτηριστικά ψηφιακής εικόνας"

Άσκηση DH-02 "Παράμετροι και συσκευές ψηφιοποίησης"

Άσκηση DH-03 "Επεξεργασία ψηφιακών εικόνων με το Gimp" 

 

Ενότητα 4. Τεκμηρίωση και οργάνωση ψηφιακού περιεχομένου

Άσκηση DH-04 "Ενσωμάτωση DC μεταδεδομένων σε ψηφιακά τεκμήρια"

Άσκηση DH-05 "XML κωδικοποίηση DC μεταδεδομένων"

Άσκηση DH-06 "Ενσωμάτωση DC μεταδεδομένων σε ιστοσελίδα"

Άσκηση DH-07 "Αποθήκευση μεταδεδομένων σε βάση δεδομένων" 

Προσεχώς:

Άσκηση "Οργάνωση ερευνητικών δεδομένων στo αποθετήριο HARDMIN "

Άσκηση "Οργάνωση ερευνητικών δεδομένων στην πλατφόρμα Heurist "

 

Ενότητα 5. Μεταγραφή ψηφιοποιημένου κειμένου

Άσκηση DH-08 "Κωδικοποίηση και απεικόνιση χαρακτήρων κειμένου"

Άσκηση DH-09 "Αυτόματη αναγνώριση χαρακτήρων έντυπου κειμένου με την εφαρμογή OCR Tesseract"

Άσκηση DH-10 "Αυτόματη αναγνώριση χειρόγραφου κειμένου με την εφαρμογή Transkribus" 

 

Ενότητα 6. Ανάλυση ηλεκτρονικού κειμένου

Άσκηση DH-11 "Ψηφιακή κειμενική ανάλυση"

 

Ενότητα 7. Κωδικοποίηση ηλεκτρονικού κειμένου

Άσκηση DH-12 "Κωδικοποίηση κειμένου με την εφαρμογή Transkribus"

Άσκηση DH-13 "Kωδικοποίηση κειμένου με βάση το πρότυπο TEI"

 

Ενότητα 8. Διαχείριση και μορφοποίηση κωδικοποιημένου κειμένου

Άσκηση DH-14 "Μετασχηματισμός XML εγγράφων σε μορφή HTML"

Άσκηση DH-15 "Μετασχηματισμός ΤΕΙ κεμένου σε μορφή HTML" 

 

Ενότητα 9. Δημοσίευση και έκδοση ηλεκτρονικού κειμένου

Προσεχώς:

Άσκηση "Παράλληλη παρουσίαση κειμένου και τεκμηρίων σε μορφή HTML"

Άσκηση " Έκδοση κειμένου με την εφαρμογή TEI-Publisher"

Άσκηση " Έκδοση κειμένου με την εφαρμογή EVT"

 

Ενότητες

Οι ανθρωπιστικές επιστήμες εκσυγχρονίζονται και συστηματικά ενσωματώνουν την ψηφιακή τεχνολογία στις παραδοσιακές μεθοδολογίες παραγωγής και διάχυσης της γνώσης.

Ο ψηφιακός μετασχηματισμός τους επικεντρώνεται στη διαχείριση ψηφιακού περιεχομένου και είχε ως αποτέλεσμα τη δημιουργία ενός νέου αυτόνομου κλάδου που ονομάζεται Digital Humanities (DH).

Τα θεωρητικά και μεθοδολογικά θεμέλια του κλάδου DH παραμένουν τα ίδια με αυτά των παραδοσιακών ανθρωπιστικών επιστημών, ενώ εκτός από την αξιοποίηση της ψηφιακής τεχνολογίας, δίνεται έμφαση στις αρχές της συλλογικότητας, στις διεπιστημονικές συνεργασίες και στην αναγκαιότητα της διαλειτουργικότητας και της προτυποποίησης.

Ο κλάδος DH επικεντρώνεται στη διαχείριση ψηφιακού περιεχομένου, και συγκεκριμένα στην ψηφιακή επιμέλεια και επεξεργασία πηγών πληροφόρησης, σύμφωνα με τις αρχές της Ανοικτής Επιστήμης.

Περιλαμβάνει την μεταφορά, τεκμηρίωση και οργάνωσή τους στον ψηφιακό χώρο, καθώς και την αναπαράσταση, ανάλυση και δημοσίευση της επιστημονικής πληροφορίας που περιέχεται σε αυτές.

Στόχος είναι η μακροχρόνια διασφάλιση των πρωτογενών πηγών, η αποτελεσματική χρήση τους και η έγκυρη αξιολόγηση, παράθεση και ερμηνεία τους.

Ψηφιοποίηση είναι η διαδικασία μετατροπής και αποτύπωσης των πρωτογενών τεκμηρίων σε μορφή ψηφιακής εικόνας.

Επιτυγχάνεται με την χρήση συσκευών ψηφιοποίησης, αφού πρώτα αναλυθούν οι απαιτήσεις και χαρακτηριστικά της τελικής χρήσης του ψηφιακού αντιγράφου προκειμένου να προσδιοριστούν η κατάλληλες τιμές για την ανάλυση (resolution), βάθος χρώματος (colour depth) και μορφή αποθήκευσης (format).

Συχνά είναι αναγκαίο να ακολουθήσει χρήση λογισμικών επεξεργασίας εικόνας για τη βελτίωση της ποιότητας του ψηφιακού αντιγράφου και τη δημιουργία άλλων εκδοχών του (π.χ. αρχεία προβολής και προεπισκόπησης).

Τεκμηρίωση είναι η διαδικασία εξέτασης, ταυτοποίησης και περιγραφής των ψηφιακών τεκμηρίων με μεταδεδομένα. Η επιλογή των κατάλληλων μεταδεδομένων συνιστά κρίσιμο ζήτημα για κάθε έργο ψηφιοποίησης, καθώς οριοθετεί τον τρόπο οργάνωσης και διαχείρισης των τεκμηρίων.

Τα ψηφιακά τεκμήρια μαζί με τις πληροφορίες που περιλαμβάνουν τα μεταδεδομένα που τα περιγράφουν αποτελούν το ψηφιακό περιεχόμενο.

Η οργάνωση ψηφιακού περιεχομένου περιλαμβάνει την ένταξη και ταξινόμησή του σε βάσεις δεδομένων με ιεραρχική δομή και αυστηρή μορφοποίηση. Εναλλακτικά, τα μεταδεδομένα μπορούν είτε να ενσωματωθούν μέσα στα ίδια τα τεκμήρια, είτε απευθείας στο αρχείο μιας ιστοσελίδας.

Ψηφιακή μεταγραφή είναι η μετατροπή του ψηφιοποιημένου κειμένου (digitized text) σε ηλεκτρονική μορφή (digital text) η οποία ξεπερνά τη δισδιάστατη εγγραφή πληροφοριών και καθιστά εφικτή την περαιτέρω επεξεργασία, ανάλυση και εμπλουτισμό τους, καθώς και την απόκτηση χαρακτηριστικών όπως υπερκειμενικότητα και διαδραστικότητα.

Η παραπάνω μετατροπή προκύπτει είτε με χειρωνακτική εισαγωγή δεδομένων (πληκτρολόγηση) είτε με OCR (οπτική σάρωση και αναγνώριση χαρακτήρων).

Μέχρι πρόσφατα, η εφαρμογή των τεχνικών OCR σε χειρόγραφα κείμενα παρέμενε μια ανακριβής διαδικασία και επομένως αναξιόπιστη επιλογή. Η ανάπτυξη της μηχανικής μάθησης και της τεχνητής νοημοσύνης έχει φέρει την επανάσταση στην αυτόματη μεταγραφή και αναγνώριση χειρόγραφων.

Η ψηφιακή ανάλυση κειμένου περιλαμβάνει την χρήση λογισμικών για την ανάλυση και οπτικοποίηση των δεδομένων που περιέχονται στο κείμενο με στόχο την εξόρυξη χρήσιμων πληροφοριών με ταχύτητα και ακρίβεια.

Τα εν λόγω λογισμικά είναι, κατά κύριο λόγο, εφαρμογές λεξικομετρίας, που μετρούν τις εμφανίσεις και τις συνεμφανίσεις λεκτικών τύπων ή τις συνάψεις, και οδηγούν σε συμπεράσματα μέσω στατιστικών αναλύσεων, οι οποίες έχουν να κάνουν με τη συχνότητα, τη χρονολογική κατάταξη, τα συμφραζόμενα των εμφανίσεων.

Η ψηφιακή ανάλυση είναι ιδιαίτερα χρήσιμη για την διαχείριση και ανάλυση του μεγάλου όγκου δεδομένων που περιέχονται στα σώματα λογοτεχνικών έργων και την διενέργεια συγκρίσεων που διαφορετικά θα ήταν ανέφικτες.

Κωδικοποίηση κειμένου είναι η διαδικασία σήμανσης (markup) των δομικών, μορφολογικών και σημασιολογικών χαρακτηριστικών του με στόχο την περιγραφή του και την οργάνωση και ταξινόμηση των πληροφοριών που περιέχει σε δομημένα και διακριτά σύνολα.

Οι προκλήσεις της κωδικοποίησης οδήγησαν στη δημιουργία προτύπων περιγραφής και εργαλείων διαχείρισης των κειμένων αξιοποιώντας τις γλώσσες σήμανσης (π.χ. XML).

Το πρότυπο ΤΕΙ (Text Encoding Initiative) αποτελεί μια από τις σημαντικότερες κειμενοκεντρικές εφαρμογές της ψηφιακής τεχνολογίας σήμανσης στο πεδίο των DH με βάση την γλώσσα XML που εξασφαλίζει έναν ομοιόμορφο τρόπο περιγραφής και αναπαράστασης των ηλεκτρονικών κειμένων που αναγνωρίζεται από όλους τους υπολογιστές.  

Παρ’ όλο που η XML είναι ιδανική για την αναπαράσταση και τον καθορισμό των δομικών, μορφολογικών και σημασιολογικών χαρακτηριστικών των κειμένων, δεν μπορεί να χρησιμοποιηθεί για την διαχείριση και μορφοποίηση τους, π.χ. :

  • Την εισαγωγή, διαγραφή και ενημέρωση των στοιχείων, ετικετών και γνωρισμάτων ενός κειμένου, την υποβολή και ανάκτηση δεδομένων.
  • Τον καθορισμό του τρόπου εμφάνισης των στοιχείων του, ώστε να είναι ευπαρουσίαστο κι ευανάγνωστο.

Οι εντολές διαχείρισης και μορφοποίησης ενός XML εγγράφου αποθηκεύονται ξεχωριστά σε ένα άλλο συνοδευτικό έγγραφο, η δημιουργία και εφαρμογή του οποίου βασίζεται στη χρήση διάφορων άλλων υποστηρικτικών τεχνολογιών και εργαλείων (π.χ. γλώσσα XSL, εφαρμογή TΕΙ-OxGarage).

Οι αξιόπιστες και έγκυρες ηλεκτρονικές δημοσιεύσεις και εκδόσεις σύνθετων και εκτεταμένων κειμένων απαιτούν περισσότερα από τον απλό μετασχηματισμό τους, καθώς οφείλουν να χαρακτηρίζονται ως διαδραστικές εμπειρίες και να επιτρέπουν ευρείες συνεργασίες εκδοτών, μεταγραφέων, ευρετηριαστών και σχολιαστών.

Η ψηφιακή τεχνολογία προσφέροντας εξειδικευμένα εργαλεία και διαδικτυακές εφαρμογές, διαμορφώνει και διευκολύνει την παραδοσιακή εκδοτική διαδικασία και δημοσίευση κειμένων, επιτρέποντας:

  • Την συσχέτιση και αντιπαραβολή κειμένων σε όλες τις μορφές.
  • Την παράλληλη παρουσίαση και διασύνδεση κειμένου και εικόνας
  • Την σύνδεση του κειμένου με εξωκειμενικό, ερμηνευτικό και διακειμενικό υλικό.
  • Την ανοιχτή και διαρκώς εμπλουτιζόμενη διαδικασία της εκδοτικής επεξεργασίας.

Ημερολόγιο

Ανακοινώσεις

  • - Δεν υπάρχουν ανακοινώσεις -