jueves, 27 de agosto de 2020

Herramientas de etiquetado de información para proyectos de aprendizaje automatizado


La generación de etiquetas de datos para el aprendizaje requiere invertir recursos considerables de tiempo, esfuerzo y dinero. Si esta generando un modelo de aprendizaje automatizado (machine learning), es probable que vaya a necesitar herramientas para el etiquetado de datos e información, para reunir rápidamente conjuntos de datos y garantizar una producción de información de calidad alta.

 Las mejores herramientas para el etiquetado de información son las que pueden usarse de manera sencilla, minimizan los errores humanos y maximizan la eficiencia, mientras mantienen una calidad consistente.
 A continuación reseñamos nueve de las mejores herramientas de anotación que le ayudarán a crear conjuntos de datos de entrenamiento para el aprendizaje automatizado.

Consejos para la selección de una herramienta de etiquetado de información

Las herramientas presentan variaciones en las características que ofrecen, los tipos de archivos soportados, las prácticas de seguridad aplicadas a la información, las opciones de almacenamiento, etcétera. Algunos aspectos que deben revisarse al evaluarlas son:

 - Una experiencia de usuario intuitiva.

- APIs dedicadas o medios simples para conectar la herramienta a las APIs privadas.

- Características avanzadas para la gestión de proyectos

- Un intervalo amplio de servicios y tipos de archivos soportados

- Herramientas de automatización que refuercen la eficiencia del proceso de etiquetado

 Dicho lo anterior, la herramienta de etiquetado correcta dependerá del alcance, escala, presupuesto y duración de su proyecto.

 9 herramientas de etiquetado de información para el aprendizaje automatizado

 1 Lionbridge AI

 Ofrece una plataforma de etiquetado y anotación de información para científicos de datos que buscan entrenar modelos de aprendizaje automatizado. Con una experiencia de más de dos décadas creando conjuntos personalizados para las compañías de tecnología más importantes, Lionbridge AI ofrece la plataforma comercial más intuitiva para la anotación de información.

 La plataforma integral le permite construir conjuntos de datos de capacitación personalizados de manera rápida y económica, al mismo tiempo que mantiene la calidad de la información. Es una de las que ofrece los principales tipos de archivo, con características exclusivas para el manejo de texto, sonido, imagen y video.

La plataforma le ofrece el máximo control y flexibilidad para personalizar sus tareas, flujos de trabajo y comprobaciones de calidad. Además ofrece la opción de integrar a sus propios escribanos de captura en la plataforma, o contratarlos a través de la red de Lionbridge, que incluye a más de medio millón de escribanos.

 2 Amazon Mechanical Turk

Conocida también cono MTurk, es un plaza de comercialización digital (marketplace) de recaudación de fondos de fuentes múltiples (crowdfunding), muy popular para el etiquetado de información. Como oferente en Amazon Mechanical Tiurk, podrá diseñar, publicar y coordinar un intervalo amplio de tareas de inteligencia humana (conocidas como HITs), por ejemplo la clasificación de textos, transcripciones o encuestas. La plataforma MTutrk ofrece herramientas útiles para describir su tarea, especificar reglas de consenso y definir la cantidad que está dispuesto a gastar en cada elemento.

 Aunque se reconoce como la más económica de las herramientas de etiquetado de información, tiene algunas desventajas, carece de características clave para el control de calidad, ofrece pocas funciones para el aseguramiento de la calidad, la evaluación del trabajador o de informes detallados. Además de que sus opciones de gestión de proyectos grandes es muy costosa, y coloca barreras a los usuarios para el diseño de tareas y el reclutamiento de sus propios trabajadores.

 3 Computer vision annotation tool (CVAT)

 Es una herramienta basada en Internet para la anotación de videos e imágenes digitales. Soporta tareas como la detección de objetos, la segmentación de la imagen y su clasificación. Sin embargo la curva de aprendizaje es alta, por otro lado destaca el amplio intervalo de características para el etiquetado de información a partir de la visión de los sistemas de cómputo.

Entre sus desventajas se puede mencionar que la interfaz del usuario es complicada, además de que sólo funciona en Google Chrome, lo que limita su aplicación en proyectos de gran escala con escribanos múltiples. Asimismo, todas las comprobaciones de calidad deben realizarse manualmente, lo cual demora la prueba del desarrollo.

 4 LightTag

Es una plataforma para empresas e investigadores que permite el etiquetado de información de texto en sus propias instalaciones. Aunque el paquete básico es gratuito, cada nivel de membresía aumenta el costo de modo apreciable, además de tener un límite mensual en el número de capturas, a partir de un millar por mes.

 5 Dataturks

Es una iniciativa reciente que ofrece servicios de etiquetado ce información para  textos, imagen y videos. Aunque la plataforma es de código abierto y gratuito, al parecer han dejado de actualizar la herramienta desde su adquisición por parte de Walmart a principios del 2019

 6 Playment

Es una compañía dedicada a la anotación de imágenes que puede usarse para construir conjuntos de datos para el entrenamiento de modelos de visión de sistemas de cómputo. Por ejemplo algunos de los servicios ofrecidos incluyen el reconocimiento de objetos, la segmentación semántica, celdas relacionadas, cuboides, polígonos puntos y líneas.

 7 TagTog

Es una herramienta de etiquetado de texto que puede usarse para anotar información de manera manual o automatizada. Además de la propia herramienta, la empresa cuenta con una red de empleados expertos en varios campos, los cuales pueden anotar textos especializados.

 8 LabelBox

Es una herramienta de colaboración (sistemas distribuidos) de etiquetado de información, ideal para equipos de aprendizaje automatizado. La plataforma ofrece en un solo sitio el etiquetado de información, la gestión de datos y los procesos de ciencia de la información, Entre las características de la herramienta se incluye la anotación de imágenes con celdas relacionadas y la clasificación del texto.

9 DevSet Labeling Tool

La estructura del etiquetado es el siguiente:

<Line>

<Id>4</Id>

<Tag>Handwriting|Spanish</Tag>

<IsConfirm>Yes</IsConfirm>

<Confidence>65535</Confidence>

<Polygon>402 1536 1805 1515 1798 1651 401 1650</Polygon>

<PolyType>Straight</PolyType>

<Value>Cementación Tipo III</Value>

<Recognition></Recognition>

<Words />

</Line>

 Si requieres el etiquetado de imágenes, texto manuscrito o video, para alimentar tus modelos de aprendizaje automatizado (machine learning) a través de APIs, en PDI-Proyectos tenemos la opción que requieres para la generación de etiquetas múltiples para cada elemento fuente y registro en archivos XML, a partir de elementos en Español, Inglés, Alemán, Francés, Italiano o Portugués.

No hay comentarios:

Publicar un comentario