| Home | Inhalt | Beiträge | Rezensionen | Berichte | Information | Suche, Index | FAQ | Sitemap | |
![]() |
ISSN: 1680-8975 PURL: http://purl.org/sichtungen/ |
||
| Home > Beiträge > Aufsätze > Bruvik: Text Encoding Initiative | |
»Yesterday's Information Tomorrow«[*]Die Text Encoding Initiative (TEI)Tone Merete Bruvik
• Einleitung
|
|
|||||||||||||||||||||||||
TEI - Text Encoding Initiative
|
||||||||
|---|---|---|---|---|---|---|---|---|
Aufbau einer TEI-DTD
|
|---|
| prose: | Für die meisten Dokumente sinnvoll und ausreichend. |
| verse: | Ergänzt das elementare Vers-Markup im Core Tag Set durch zusätzliche Tags für metrische Analyse, Reimschema usw. |
| drama: | Ergänzt das elementare Dramen-Markup im Core Tag Set durch zusätzliche Tags für die Auszeichnung von Dramentexten. |
| spoken: | Ersetzt die Basisstruktur durch eine Struktur für linguistische Analyse (z. B. Sprechakte). |
| dictionaries: | Ersetzt die Basisstruktur durch eine detaillierte Struktur zur Auszeichnung lexikographischer Merkmale. |
| terminology: | Ersetzt die Basisstruktur durch eine differenzierte Struktur für terminologische Datenbanken. |
| general base: | Erlaubt die Kombination verschiedener Base Tag Sets, wobei allerdings jede einzelne Texteinheit jeweils nur Tags aus einem der ausgewählten Base Tag Sets enthalten kann. |
| mixed: | Erlaubt die Verbindung von verschiedenen Base Tag Sets ohne Restriktion hinsichtlich der Kombination. |
Additional Tag Sets: Eine TEI-DTD kann eines oder mehrere folgender Tag Sets enthalten:
| linking: | Ergänzung durch Elemente für Hyperlinks, sowie zur Segmentation und Verbindung von Hyperlinks. |
| figures: | Ergänzung durch Elemente für Tabellen, Graphiken und Formeln. |
| analysis: | Ergänzung durch Elemente für Interpretation und einfache linguistische Analysen. |
| fs: | Ergänzung durch Elemente für Merkmalsanalyse (feature structure analysis). |
| certainty: | Ergänzung durch Elemente zur Definition der Sicherheit und der Korrektheit einer Auszeichnung sowie Kennzeichnung der Verantwortlichkeit für eine Auszeichnung. |
| transcr: | Ergänzung durch Elemente für die Transkription von Primärquellen (z. B. Handschriften). |
| textcrit: | Ergänzung durch Elemente für einen textkritischen Apparat. |
| names.dates: | Ergänzung durch Elemente für die detaillierte Auszeichnung von Namen und Daten. |
| nets: | Ergänzung durch Elemente für die Definition von abstrakten Strukturen mathematischer Graphen, Netzwerke und Bäume. |
| corpora: | Ergänzung des TEI-Headers durch besondere Elemente für die Struktur von Sprachkorpora. |
Zusätzlich kann man innerhalb von TEI nach gewissen Grundsätzen auch Regeln ändern und hinzufügen.
Im Projekt »Henrik Ibsen's Writings«[5]wird TEI zur Kodierung sämtlicher Texte des norwegischen Schriftstellers verwendet, d. h. für die Textauszeichnung seiner Dramen, Gedichte, Briefe und Manuskripte. In dem Projekt wird eine TEI-DTD mit »mixed« als Base Tag Set und »prose«, »verse« und »drama« als Tag Sets benutzt. Als Additional Tag Sets kommen zum Einsatz: »linking«, »figures«, »transcr«, »textcrit«. Zusätzlich wurden der TEI-DTD einige eigene Änderungen und Erweiterungen hinzugefügt; diese Modifikationen stehen in zwei Dateien, die beim Generieren der TEI-DTD für das Ibsen-Projekt inkludiert werden.
Eine TEI-DTD manuell zu verfassen ist relativ kompliziert. Daher gibt es auf der TEI-Website ein Skript (»The TEI Pizza Chef«[6]), das dies einfach und automatisch erledigt. Man wählt aus, welche Tag Sets, Elemente und Entity Sets in die gewünschte DTD einfließen sollen und bekommt eine fertige DTD generiert, nach der man seine Texte kodieren kann.
Auf der TEI-Website findet man auch eine gründliche Dokumentation und ein fachliches Forum, über die man sich Unterstützung holen kann. Man erspart sich somit die ständige Neubearbeitung einer DTD und die Konsequenzen, die diese Revisionen für die kodierten Texte in den assoziierten Dateien haben können.
Für diejenigen, die sich in TEI einarbeiten wollen und noch nicht genug über die Struktur der Texte wissen, die sie kodieren möchten, und die daher keine eigene DTD mithilfe des »TEI Pizza Chef« generieren wollen, steht die vordefinierte DTD »TEI Lite« zur Verfügung, die ausführlich dokumentiert ist.[7]TEI Lite ist eine Teilmenge von TEI und dient als Einführung in die gebräuchlichsten Strukturen von TEI. Auch das obige Hofmannsthal-Beispiel ist in der XML-Version von TEI Lite kodiert. TEI Lite eignet sich gut für Lernzwecke, für tatsächliche Projektarbeit und komplexere Texte sollte es jedoch wegen der Beschränktheit der Kodierungsschemata nicht verwendet werden.
Hintergrund von TEI
|
||||||||
|---|---|---|---|---|---|---|---|---|
Informationsquellen
|
||||||||
|---|---|---|---|---|---|---|---|---|
Das TEI-Konsortium
|
|---|
| Größe der Organisation | Volkswirtschaft mit niedrigem Einkommen | Volkswirtschaft mit niedrigem bis mittlerem Einkommen | Volkswirtschaft mit mittlerem bis hohem Einkommen | Volkswirtschaft mit hohem Einkommen |
| Kleine Organisation mit fünf oder weniger Mitarbeitern, denen die TEI-Mitgliedschaft zugute kommt, und / oder ein kleines Projekt, das TEI einsetzt | $ 100 | $ 166 | $ 250 | $ 500 |
| Mittelgroße Organisation mit bis zu 15 Mitarbeitern, denen die TEI-Mitgliedschaft zugute kommt, und / oder kleiner Einsatz von TEI-strukturierten Daten | $ 300 | $ 500 | $ 750 | $ 1.500 |
| Große Organisation mit bis zu 25 Mitarbeitern, denen die TEI-Mitgliedschaft zugute kommt, und / oder mittelgroßer Einsatz von TEI-strukturierten Daten | $ 500 | $ 833 | $ 1.250 | $ 2.500 |
| Große Organisation mit bis zu 25 oder mehr Mitarbeitern, denen die TEI-Mitgliedschaft zugute kommt, und / oder großer Einsatz von TEI-strukturierten Daten | $ 1.000 | $ 1.666 | $ 2.500 | $ 5.000 |
Ein kleines Projekt einer großen Organisation hat die Möglichkeit, dem TEI-Konsortium auf einer niedrigen Beitragsbasis beizutreten, allerdings berührt die Mitgliedschaft dann nur das Einzelprojekt, nicht die gesamte Organisation. Der Jahresbeitrag für individuelle Subskribenten beträgt generell $ 50. Welche Staaten zu welcher Einkommenskategorie gerechnet werden, ergibt sich aus einer Klassifikation der Weltbank.[27] Beispielsweise ergibt sich für Mitglieder aus Deutschland die Gebühr für Volkswirtschaften mit hohem Einkommen, für Mitglieder aus der Tschechischen Republik die Gebühr für Volkswirtschaften mit mittlerem bis hohem Einkommen. Unabhängig von der Höhe des jeweiligen Beitrags haben alle Mitglieder die gleichen Rechte und Pflichten.
TEI-C ist an weiteren Mitgliedern interessiert, vor allem aus französischen und deutschsprachigen Fachkreisen und außerhalb des nordamerikanischen und europäischen Bereichs. Nähere Informationen und ein Online-Beitrittsformular finden sich auf der TEI-Website.[28]
Weiterentwicklung von TEI
|
||||||||
|---|---|---|---|---|---|---|---|---|
Zusammenfassung
|
||||||||
|---|---|---|---|---|---|---|---|---|
Anhang A: Mitgliedsliste des TEI-C, Stand vom 1. März 2002
|
|---|
| Institution | Ort | Land |
| American Association of University Presses | New York, NY | USA |
| Apex ePublishing Data Services, LLC | Herndon, Virginia | USA |
| Brown University | Providence, Rhode Island | USA |
| Centrum voor Teksteditie en Bronnenstudie | Gent | Belgien |
| Columbia University | New York, NY | USA |
| De Montfort University, Centre for Technology and the Arts (CTA) | Leicester | Großbritannien |
| Emory University | Atlanta, Georgia | USA |
| Furman University | Greenville, South Carolina | USA |
| Georgetown University, Center for New Designs in Learning and Scholarship | Washington, DC | USA |
| Imperial College, Newton Project | London | Großbritannien |
| Indiana University Digital Library Program | Bloomington, Indiana | USA |
| Library of Congress | Washington, DC | USA |
| Markup Languages: Theory & Practice | Española, New Mexico | USA |
| Maryland Institute for Technology in the Humanities (MITH) | College Park, Maryland | USA |
| Masarykova univerzita v Brno, Faculta informatiky, Laborator zpracování prirozeného jazyka (Masaryk Universität Brünn, Fakultät für Informatik, Laboratorium für natürliche Sprachverarbeitung) | Brno | Tschechische Republik |
| Modern Language Association | New York, NY | USA |
| Národní knihovne Ceské republiky (Tschechische Nationalbibliothek, Abteilung für Handschriften und Alte Drucke) | Praha | Tschechische Republik |
| National Initiative for a Networked Cultural Heritage (NINCH) | Washington, DC | USA |
| National Library of Australia | Canberra | Australien |
| New York University | New York, NY | USA |
| Northwestern University, Department of English | Evanstou, Illinois | USA |
| Oxford University | Oxford | Großbritannien |
| Research Libraries Group (RLG) | Mountain View, California | USA |
| Rice University, Electronic Text Center | Houston, Texas | USA |
| Society of Biblical Literature | Atlanta, Georgia | USA |
| The project of »The Brownings' Correspondence« | Waco, Texas | USA |
| Tufts University, Perseus Project | Medford, Massachusetts | USA |
| Universidad de Alicante, Biblioteca Virtual Miguel de Cervantes | Alicante | Spanien |
| Università di Bologna, Dipartimento di Studi Interdisciplinari su Traduzione, Lingue e Culture (SITLeC) | Forlì | Italien |
| Università di Pisa | Pisa | Italien |
| Università di Roma, Centro Ricerche Informatica e Letteratura (CRILet) | Roma | Italien |
| Universiteit Utrecht, Institute of Information and Computing Sciences | Utrecht | Niederlande |
| Universitetet i Bergen, HIT-senteret | Bergen | Norwegen |
| Universitetet i København, Det Arnamagnæanske Institut | København | Dänemark |
| University of California, Berkeley The Bancroft Library | Berkeley, California | USA |
| University of California, Davis General Library | Davis, California | USA |
| University of Chicago Library | Chicago, Illinois | USA |
| University of Georgia | Athens, Georgia | USA |
| University of Illinois at Urbana-Champaign | Champaign, Illinois | USA |
| University of Kentucky, Research in Computing for Humanities (RCH) | Lexington, Kentucky | USA |
| University of Lancaster, Department of Linguistics and M.E.L. | Lancaster | Großbritannien |
| University of Maryland Libraries | College Park, Maryland | USA |
| University of Michigan Library | Ann Arbor, Michigan | USA |
| University of Minnesota Libraries | Minneapolis, Minnesota | USA |
| University of New Brunswick Libraries, Electronic Text Centre | Fredericton, New Brunswick | Kanada |
| University of North Carolina at Chapel Hill, Academic Affairs Library | Chapel Hill, North Carolina | USA |
| University of South Carolina, Model Editions Partnership | Columbia, South Carolina | USA |
| University of Sydney, Scholarly Electronic Text and Image Service (SETIS) | Sydney | Australien |
| University of Virginia | Charlottesville, Virginia | USA |
| Univerzita Karlova | Praha | Tschechische Republik |
| Univerzita Komenského, Pedagogická Fakulta, Laboratórium poãítaãovej lingvistiky (Comenius-Universität, Fakultät für Erziehungswissenschaften, Labor für Computerlinguistik) | Bratislava | Slowakische Republik |
| Victoria University of Wellington, New Zealand Electronic Text Centre | Wellington | Neuseeland |
| Wheaton College | Norton, Massachusetts | USA |
Anhang B: Glossar
|
|---|
| ACH | Association for Computers and the Humanities (http://www.ach.org/) |
| ACL | The Association for Computational Linguistics (http://www.cs.columbia.edu/~acl/) |
| ALLC | The Association for Literary and Linguistic Computing (http://www.kcl.ac.uk/humanities/cch/allc/) |
| ASCII | American Standard Code for Information Interchange |
| DTD | Document Type Definition |
| ETC | University of Virginia Electronic Text Center (http://etext.lib.virginia.edu/) |
| HCU | University of Oxford Humanities Computing Unit (http://www.hcu.ox.ac.uk/) |
| HIT | Humanities Information Technologies Research Programme (http://www.hit.uib.no/english/) |
| HTML | Hyper Text Markup Language (http://www.w3.org/MarkUp/) |
| IATH | Institute for Advanced Technology in the Humanities (http://www.iath.virginia.edu/) |
| ISO | International Organization for Standardization (http://www.iso.ch/) |
| MLCD | Markup Languages for Complex Documents (http://www.hit.uib.no/claus/mlcd/index.en.html) |
| NEH | U.S. National Endowment for the Humanities (http://www.neh.fed.us/) |
| Portable Document Format | |
| SGML | Standard Generalized Markup Language |
| SSHRC | Social Science and Humanities Research Council of Canada (http://www.sshrc.ca/) |
| STG | Brown University Scholarly Technology Group (http://www.stg.brown.edu/) |
| TEI | Text Encoding Initiative (http://www.tei-c.org) |
| TEI-C | Text Encoding Initiative Consortium (http://www.tei-c.org) |
| XML | Extended Markup Language (http://www.w3.org/XML/) |
| XSLT | Extensible Stylesheet Language Transformation (http://www.w3.org/Style/XSL/) |
Übersetzung aus dem Norwegischen: Daniel Jung
Anmerkungen
|
||||||||
|---|---|---|---|---|---|---|---|---|
Hyperlinks zu diesem Texthttp://www.tei-c.org http://www.ach.org/ http://www.cs.columbia.edu/~acl/ http://www.kcl.ac.uk/humanities/cch/allc/ http://etext.lib.virginia.edu/ http://www.hcu.ox.ac.uk/ http://www.hit.uib.no/english/ http://www.w3.org/MarkUp/ http://www.iath.virginia.edu/ http://www.iso.ch/ http://www.hit.uib.no/claus/mlcd/index.en.html http://www.neh.fed.us/ http://www.sshrc.ca/ http://www.stg.brown.edu/ http://www.tei-c.org http://www.tei-c.org http://www.w3.org/XML/ http://www.w3.org/Style/XSL/ http://ger-www.uia.ac.be/webger/ger/people/vanhoutte/pub/headerproposal.htm http://www.onb.ac.at/sichtungen/ http://purl.org/sichtungen/ http://www.tei-c.org/Stylesheets/teixsl.html http://www.ibsen.uio.no/his/hjemmeside/english.html http://www.tei-c.org/pizza.html http://www.tei-c.org/Lite/ http://www.tei-c.org/Guidelines/ http://www.tei-c.org/Guidelines2/ http://digital.nypl.org/schomburg/writers_aa19/ http://www.hcu.ox.ac.uk/BNC/ http://www.jgoethe.uni-muenchen.de/ http://www.w3.org/TR/1998/REC-xml-19980210 http://www.w3.org/XML/Linking/ http://www.loc.gov/ead/ http://www.hit.uib.no/claus/mlcd/index.en.html http://computerphilologie.uni-muenchen.de/praxis/teiprax.html http://www2.hu-berlin.de/literatur/projekte/loreley/Teilite/ tei-l@listserv.brown.edu listserv@listserv.brown.edu http://www.uni-tuebingen.de/allcach2002/ http://www.hcu.ox.ac.uk/ http://www.stg.brown.edu/ http://www.hit.uib.no/english/ http://etext.lib.virginia.edu/ http://www.iath.virginia.edu/ http://www.tei-c.org/Consortium/TEIcharter.html http://www.worldbank.org/data/databytopic/class.htm http://www.tei-c.org/Consortium/ag-mem.html |
||||||||
| [Zum Seitenanfang] | ||
| Home | Inhalt | Beiträge | Rezensionen | Berichte | Information | Suche, Index | FAQ | Sitemap | ||
Copyright 2001-2002 by Sichtungen online
|