Página web de Beatriz Pérez

Diccionarios y corpus


Inauguro esta página con un trabajo sobre "Corpus online alemán y recursos" que hemos realizado mi compañera Lou Konkol y yo y que será publicado en el blog de la asignatura TIC aplicadas a la Traducción http://tictrans.blogs.uv.es/articulos.


DEUTSCHE TEXTKORPORA

Con este artículo pretendemos dar una idea general sobre algunos corpus en alemán que podemos utilizar online, así como algunas herramientas y recursos útiles para el uso de estos. Primero de todo, queremos recomendaros esta página (en alemán), en ella encontraréis muchísima información sobre la Lingüística de Corpus y los corpus más importantes: http://www.bubenhofer.com

Un corpus es...

…una recopilación de textos escritos o trascripciones de textos orales agrupados con el fin de servir como muestra de una lengua para su estudio. Este debe cumplir una serie de criterios como ser textos reales, tener una limitación de extensión; y otros criterios específicos como tema, tipo de texto o época. Así, un corpus puede ser monolingüe o multilingüe, sincrónico o diacrónico, general o específico, etc.

(Más información sobre corpus: http://www3.unileon.es/dp/dfh/Milka/LCII/Corpus4.pdf)

Pero, ¿para qué usaremos estos corpus como futuros traductores? El corpus es una herramienta muy útil para realizar la tarea de documentación previa a la traducción. Este nos permite compilar textos que después analizaremos en busca de convenciones (organización formal, formatos, estilo) o la terminología y fraseología propia de ese tipo de textos que nos ayudarán a la hora de realizar la traducción. El LIMAS-Korpus, por ejemplo, contiene textos de diferente temática. En caso de crear un corpus ad hoc, el traductor se encargará de recopilar textos paralelos de una temática concreta o generales según las necesidades.

El corpus más importante del alemán...

... es el Deutscher Referenzkorpus (DeReKo), creado por el Institut für Deutsche Sprache (IDS) de Mannheim. Este corpus puede consultarse a través de la herramienta de búsqueda/programa de concordancia COSMAS II (solo hay que registrarse en la página y descargarlo). DeReKo está vinculado con el Digitales Wörterbuch der deutschen Sprache (DWDS) y otros corpus.

La World Wide Web como corpus.

Si introducís las palabras clave Textkorpus/Textkorpora, Textcorpus, Korpuslinguistik, Textarchive, Textdatenbanken en el motor de búsqueda de google o el buscador www.metager.de encontraréis más información sobre corpus en alemán. Es posible usar la web como corpus gracias a programas gratuitos como, por ejemplo, KwicFinder. KwicFinder es un programa de concordancias que permite buscar palabras en todas las páginas de internet. Aunque esta no es la mejor solución, puesto que usar la world wide web conlleva bastantes problemas. Algunos de los problemas más frecuentes son la fiabilidad de los textos, la originalidad y la autoría de estos, todo ello, factores que tenemos que tener en cuenta.

Deutsche Korpora

En el siguiente PowerPoint os explicaremos el funcionamiento de los tres corpus online que hemos escogido.

- LIMAS-Korpus

- KORPUS C4

- DWDS

Corpus del alemán

Corpus ad hoc

Podemos encontrar corpus electrónicos online como los ya mencionados o programas de concordancia como AntConc, pero, también, nos serán muy útiles herramientas como programas de etiquetación (Tagger y Parser), listas de palabras vacías y alineadores para corpus paralelos, en caso de tener que crear un corpus propio.

Nombraremos algunas de estas herramientas para que podáis echarles un vistazo y empecéis a conocerlas:

- Fuentes (recopilación de textos para crear un corpus propio)

Enlace a webs- textos digitalizados

http://www.erlangerliste.de/ressourc/epoc_10a.html

http://www.erlangerliste.de/ressourc/eltext.html

Project Gutenberg

http://www.gutenberg.org/wiki/Main_Page

Bibliotheca Germanica

http://www.hs-augsburg.de/~harsch/germanica/Chronologie/d_chrono.html

Projekt Deutsches Textarchiv (DTA)

http://www.deutschestextarchiv.de/

- Programas de concordancia/análisis de corpus (de descarga):

Sketch Engine

http://www.sketchengine.co.uk/

IMS Open Corpus Workbench (CWB)

http://cwb.sourceforge.net/

- Listas stop words (alemán):

Archivo zip con listas de palabras vacías en diferentes idiomas (formato txt):

http://code.google.com/p/stop-words/downloads/detail?name=stop-words-collection-2011.11.21.zip&can=2&q=

http://code.google.com/p/stop-words/downloads/detail?name=stop-words-collection-2011-11-20.zip&can=2&q=

Listas online (copiar y guardar en el formato correspondiente):

http://members.unine.ch/jacques.savoy/clef/germanST.txt

- Tagger & Parser (se usan para codificar información adicional, lingüística y extra-lingüística, en el corpus)

TreeTagger

http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

Machinese Phrase Tagger

http://www.connexor.eu/technology/machinese/machinesephrasetagger/

LoPar

http://www.ims.uni-stuttgart.de/projekte/gramotron/SOFTWARE/LoPar.html

MULTEXT MMAX Annotation Tool

BIBLIOGRAFÍA

http://www.uv.es/laurapo/wikibase/cas/Tema6Datos.wiki

“TEMA V: Corpus lingüístico para la traducción”: APUNTES DE CLASE de Laura Ramírez Polo, Profesora de “TIC aplicadas a la Traducción”. Universidad de Valencia, 2012

http://www.bubenhofer.com

http://mmmann.de/Sprache/corpora-deutsch.html

http://www.korpora.org/Limas/

http://www.ids-mannheim.de/cosmas2/

http://chtk.unibas.ch/korpus-c4/search

http://retro.dwds.de/

http://www.dwds.de/help/panel/2/

http://www.ids-mannheim.de/kl/projekte/korpora/

http://www.ids-mannheim.de/service/quellen/texte.html#TXT

http://www.erlangerliste.de/ede/ede.html

http://www8.informatik.uni-erlangen.de/IMMD8/Services/sammlung_korpora/

http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/corpora.html


¡Espero que disfrutéis mucho con mi página!

¡Escríbeme!