La extracción de términos o extracción de terminología es el análisis automático de un texto para identificar frases que se consideran términos. La extracción terminológica tiene aplicaciones en la traducción y la gestión de la terminología, pero también en el análisis de textos, donde se utiliza para el modelado de temas, la minería de datos y la recuperación de información a partir de textos no estructurados.
El acceso a los extractores de terminología y la capacidad de crear glosarios automáticos son cruciales para la gestión eficaz de los contenidos multilingües.
Extracción óptima de términos
La mejor extracción de términos proporciona una lista de términos lo más pulida y precisa posible, que requiere pocos cambios hechos manualmente. Muchos métodos tradicionales de extracción se basan principalmente en la frecuencia de aparición de un término en el texto. Este método no es óptimo porque requiere la comprobación y aplicación de cambios manual de la lista de términos. Este proceso puede reducirse o incluso evitarse con la aplicación de criterios lingüísticos junto con estadísticas.
Podemos definir el funcionamiento del extractor mediante un número mínimo de caracteres por término, el número de palabras de un término, la frecuencia de aparición en los datos de origen, y podemos limitar el vocabulario según su aparición en el vocabulario común.
Ronda Sant Antoni 46, ent.1A
08001 Barcelona
+34 931 82 42 24
info@omero.es
al. W. Witosa 3
20-315 Lublin
+48 81 30 70 677
info@omero.pl