Introducción
2020 está casi en los libros ahora. Qué año más loco desde el punto de vista que se mire. Una pandemia se extendió por todo el mundo y, sin embargo, no logró atenuar la luz sobre la ciencia de datos (Data Science), Inteligencia Artificial, Machine Learning y Deep Learning. La sed de aprender más continuó sin cesar en diferentes plataformas como Coursera, Edx, Udemy, Udacity, Analytics Vidhya y otros, nuestra comunidad y este año vimos algunos desarrollos y avances increíbles.
Desde el alucinante framework como GPT-3 de OpenAI hasta el modelo DETR de Facebook, este fue un año de crecimiento incremental y de grandes saltos. Ya sea en el Machine Learning o en el procesamiento del lenguaje natural (NLP) o en la visión por computadora, la ciencia de los datos prosperó y continuó ubicándose en todo el mundo.
Como es nuestra tradición anual, volvemos con nuestra revisión de los mejores desarrollos y avances en ciencia de datos en 2020 y también esperamos lo que puede esperar en 2021. ¡Hay mucho que desempacar aquí, así que pongámonos en marcha!
- Desarrollos en el procesamiento del lenguaje natural (NLP) en 2020
- Desarrollos en Visión por Computador (CV) en 2020
- Avances en el aprendizaje por refuerzo en 2020
- El auge de los MLOps
- La comunidad de ciencia de datos se unió para luchar contra COVID-19
- Analytics Vidhya sobre las tendencias de Machine Learning en 2020
La NLP no parece tomarse un descanso de dar saltos año tras año
Como el año pasado, también vimos algunos desarrollos importantes en 2020. Hemos enumerado algunos de ellos en esta sección.
Si es un recién llegado a la PNL y desea comenzar con este campo floreciente, le recomiendo que consulte el siguiente curso completo:
Echemos un vistazo.
OpenAI lanzó un nuevo sucesor de su modelo de lenguaje: GPT-3. Este es el modelo más grande entrenado hasta ahora, con 175 mil millones de parámetros. Los autores entrenaron varios tamaños de modelos, que varían desde 125 millones de parámetros hasta 175 mil millones de parámetros, para obtener la correlación entre el tamaño del modelo y el rendimiento de referencia.
La arquitectura de GPT-3 está basada en Transformers, similar a GPT-2, incluida la inicialización modificada, la pre-normalización y la tokenización reversible descritas allí. La única excepción es que utiliza patrones de atención dispersos alternados densos y con bandas localmente en las capas del transformador, similar al Transformador disperso.
Aunque el GPT-3 tiene sus limitaciones, sigue siendo uno de los principales avances en la NLP. Por poner un ejemplo, las fake news generadas por GPT-3 son tan parecidas a las reales que es difícil distinguirlas. Algunos resultados muestran que solo se pudo detectar el 50% de las noticias falsas.
Estamos simplemente asombrados por este gran salto en los modelos de lenguaje.
Afirmando ser mejor que Meena de Google, Facebook lanzó su Chatbot de código abierto y de última generación, BlenderBot. Es el resultado de muchos años de resultados y está equipado con una combinación de diversas habilidades de conversación que abarcan empatía, conocimiento y personalidad.
Este chatbot ha mejorado las técnicas de decodificación, la novedosa combinación de habilidades y un modelo con 9.400 millones de parámetros, que es 3,6 veces más que el sistema más grande existente.
La receta del chatbot incluye un enfoque especial en Escala, habilidades de combinación y estrategias de generación. Es tan mejor, que incluso los evaluadores humanos no pueden negar su supremacía.
Puede ver el modelo completo, el código y la configuración de evaluación, aquí https://parl.ai/projects/recipes/
OpenAI lanzó su nueva API a mediados de este año. La API le permite utilizar las herramientas de inteligencia artificial de la empresa en “prácticamente cualquier tarea en inglés”. La API da acceso al GPT-3 de la empresa y le permite realizar tareas como: búsqueda semántica, resumen, análisis de sentimientos, generación de contenido, traducción y más, con solo unos pocos ejemplos o simplemente informando su tarea en inglés.
El objetivo de esto es resolver el problema de los sistemas distribuidos y, a su vez, aumentar el enfoque de los usuarios en su investigación de Machine Learning. La API fue diseñada para ser un aumento simple y flexible de la productividad de los usuarios.
Puedes leer más sobre esto aquí https://openai.com/blog/openai-api/.
O simplemente puede probar la API aquí https://beta.openai.com/.
DETR resuelve el problema de detección de objetos como un problema de predicción de conjuntos directos, a diferencia de las técnicas tradicionales de visión por computadora. Facebook anunció DETR como “ un nuevo enfoque importante para la detección de objetos y la segmentación panóptica” . Incluye una pérdida global basada en conjuntos, que fuerza predicciones únicas mediante el emparejamiento bipartito, y una arquitectura de codificador-decodificador de transformador.
DETR varía completamente en arquitectura en comparación con los sistemas de detección de objetos anteriores. Es el primer marco de detección de objetos que integra con éxito Transformers como un bloque de construcción central en la tubería de detección. DETR iguala el rendimiento con métodos de última generación al tiempo que optimiza completamente la arquitectura.
Puede obtener más información sobre DETR aquí https://github.com/facebookresearch/detr
FasterSeg es una red de segmentación semántica diseñada automáticamente con no solo un rendimiento de vanguardia, sino también una velocidad más rápida que los métodos actuales.
FasterSeg admite ramas de resolución múltiple, tiene una regularización de latencia de grano fino que alivia el problema del “colapso de la arquitectura”. Además, FasterSeg alcanza una velocidad extremadamente rápida (más de un 30% más rápido que el competidor más cercano diseñado manualmente en CityScapes) y mantiene una precisión competitiva.
Puede ver el código y la documentación completa aquí https://github.com/VITA-Group/FasterSeg.
La comunidad de visión por computadora está en camino de hacer que su algoritmo sea más eficiente para que puedan funcionar en dispositivos y sensores muy pequeños. Una de las arquitecturas prominentes a la vanguardia de este esfuerzo por la eficiencia es EfficientDet-D7.
Se ha informado que EfficientDet-D7 logra el estado del arte en la tarea de detección de objetos COCO con 4–9 veces menos parámetros de modelo que el mejor de su clase y puede ejecutarse 2–4 veces más rápido en GPU y 5–11 veces más rápido en CPU que otros detectores.
Puedes obtener más información al respecto aquí https://arxiv.org/pdf/1911.09070.pdf.
Detectron2 es una reescritura completa de Detectron que comenzó con maskrcnn-benchmark https://github.com/facebookresearch/maskrcnn-benchmark?fbclid=IwAR0OEh3nz4aRECrT5SPLwfdEi7-OAV8t-CRmRaIeVFEEqnHuqH_c5GnsV0I. La plataforma ahora está implementada en PyTorch . El diseño nuevo y más modular hace que Detectron2 sea flexible y proporciona un entrenamiento más rápido en una o varias GPU.
Detectron2 contiene implementaciones de alta calidad de algoritmos de detección de objetos de última generación, que incluyen DensePose , redes piramidales de características panópticas y numerosas variantes de la familia de modelos pionera Mask R-CNN también desarrollada por FAIR. Su diseño extensible facilita la implementación de proyectos de investigación de vanguardia sin tener que bifurcar todo el código base.
Además, el modelo se entrena mucho más rápido y los modelos se pueden exportar a formato torchscript o caffe2 para su implementación.
Lo lees en detalle aquí https://github.com/facebookresearch/detectron2.
Uno de los problemas más antiguos y desafiantes de la biología fue predecir la estructura o forma tridimensional única de las proteínas. La forma de las proteínas está determinada por cómo se pliegan las cadenas de aminoácidos y esto también determina lo que hará la proteína.
El sistema AlphaFold de DeepMind ha sido reconocido como una solución a este problema por los organizadores de la Evaluación Crítica de Predicción de la Estructura de las proteínas ( CASP ) bienal .
Dado que la forma de la proteína determina sus funciones, predecir la forma nos ayudará a determinar qué y cómo funciona. Este es un gran salto en la comunidad científica y tiene el potencial de resolver problemas globales como descomponer los desechos industriales y desarrollar rápidamente tratamientos para enfermedades.
Este aspecto del aprendizaje por refuerzo fue un poco lento en términos de avances en 2020, pero hay un desarrollo que simplemente no podemos perder, ya que tiene un gran potencial en la forma en que manejamos los problemas: la creación de Agent57.
Después de la propuesta de The Arcade Learning Environment (también conocido como Atari57) como un conjunto de evaluación de 57 videojuegos clásicos de Atari que plantean una amplia gama de desafíos para que un agente de RL aprenda y domine, rara vez ha habido un programa de RL que lo supere.
Fuente: DeepMind
¡Ingrese Agent57 de DeepMind! Se ha convertido en el primer agente de aprendizaje por refuerzo (RL) en superar las puntuaciones básicas humanas en los 2600 juegos del conjunto de pruebas Atari57.
Agent57 combina un algoritmo para una exploración eficiente con un metacontrolador que adapta la exploración y el comportamiento del agente a corto y largo plazo.
El objetivo final aquí para DeepMind no era crear un algoritmo para funcionar mejor en los juegos, sino utilizar los juegos para adaptarse y sobresalir en otra amplia gama de tareas.
MLOps es un concepto relativamente nuevo en el dominio de la ciencia de datos. Así que permítanos aclararlo brevemente.
MLOps es el punto de encuentro de los científicos de datos con el departamento de operaciones garantizando las mejores aplicaciones prácticas de los modelos creados. En términos simples, podemos referirnos a MLOps como DevOps for Machine Learning.
“Se trata de cómo administrar mejor a los científicos de datos y al personal de operaciones para permitir el desarrollo, la implementación y el monitoreo efectivos de los modelos”. — Forbes
MLOps está en aumento, lo que sugiere que la industria está pasando de cómo construir modelos (I + D de tecnología) a cómo ejecutar modelos (operaciones). La investigación dice que el 25% de los 20 proyectos de GitHub de más rápido crecimiento en el segundo trimestre de 2020, infraestructura, herramientas y operaciones de ML. Incluso el tráfico de búsqueda de Google para “MLOps” ahora está aumentando por primera vez.
Según el ‘Estado de la ciencia de datos 2020’ de Anaconda, 2 de las grandes preguntas que preocupan a los científicos de datos es el impacto del sesgo de los datos y los impactos en la privacidad individual.
El impacto social del sesgo en los datos y los modelos es un problema de larga data en la ciencia de datos. Aunque existen muchos métodos científicamente probados que pueden reducir la muestra o los datos de entrenamiento, eliminarlos todavía es un sueño lejano. Y si no se controla, el sesgo en los datos y modelos afectará a decisiones que pueden tener un efecto adverso irreversible en la sociedad.
De manera similar, la línea entre la recopilación de datos y la privacidad de los datos es delgada. Hay muchas organizaciones que recopilan datos que ni siquiera necesitan para que el producto funcione para fines futuros. Esto vuelve a plantear las cuestiones de la práctica ética y la confianza.
Otros problemas se destacan a continuación:
La Casa Blanca pidió a la comunidad de Kaggle que acudiera al rescate. Los datos eran tantos y tan diversos que requirió que todos los cerebros de la comunidad aplicaran sus pensamientos y conocimientos a ellos.
Veamos cómo la comunidad aprovechó las técnicas de ciencia de datos para resolver diferentes problemas relacionados con la pandemia.
- NLP para revisar trabajos de investigación-papers
2. Pronóstico de series de tiempo
Kagge comenzó a organizar una serie de concursos de predicción de transmisión global. El objetivo es predecir el número total de infecciones y muertes para varias regiones, con la idea de que estos números deben correlacionarse bien con el número real de hospitalizaciones, pacientes en UCI y muertes, así como con el número total de recursos escasos que ser necesario para responder a la crisis.
Las soluciones ganadoras se desempeñaron a la par con los modelos epidemiológicos con respecto a RMLSE como puede ver en el gráfico a continuación:
Los participantes pudieron predecir bien las técnicas de modo de conjunto como XGBoost y LightGBM y también identificaron fuentes de datos externos que, cuando se incorporan, brindan una mejor predicción.
1. El número de puestos de trabajo en el dominio de la ciencia de datos seguirá aumentando en 2021. No solo debido al aumento del volumen de datos, sino que el mundo posterior a la covid tendrá muchos nuevos hábitos de consumo, además de que se establece el requisito de que los científicos de datos aumento de industrias de la vieja guardia como la fabricación, la minería, etc.
2. PyTorch de Facebook para superar a TensorFlow de Google, lo que indica su uso en producción el próximo año. La investigación muestra que ha habido una disminución en el uso de TensorFlow y el cambio a PyTorch. También de muchas conferencias que revelan el marco utilizado, tres cuartas partes usan PyTorch. Puede leer la investigación en los siguientes informes:
3. Python para conseguir una mejor fortaleza en 2021
No hay duda de que Python es actualmente el idioma más preferido y no hay ningún idioma que compita con él. Para ser aún más el lenguaje dominante, ya lanzó Python 3.9 en octubre con muchas mejoras, y Python 3.10 ya está en desarrollo y se lanzará a principios de 2021.
4. Redundancia de modelos basados en datos pre-Covid
El cultivo de nuevos hábitos y el cambio en el comportamiento del consumidor será la clave para capturar el éxito en el mundo post-covid. La validez de los modelos basados en datos anteriores a Covid va a caer.
5. Los mercados de datos estarán en aumento
Covid-19 será un gran cambio de juego en términos de los hábitos de los consumidores. Eso significa que algunas organizaciones recopilarán más tipos de datos nuevos y diversos nunca antes recopilados, lo que aumentará el mercado para el intercambio formal de datos por dinero.
Al final, solo tenemos una cosa que decir: “La ciencia de datos llegó para quedarse”. En un futuro cercano, será parte de la vida de todos y afectará directamente cada decisión que tomen.
Muchas gracias.
Seguidme en: https://www.linkedin.com/in/msc-rub%C3%A9n-quispe-l/