GateRL: marco de diseño de circuitos automatizado de puertas lógicas CMOS utilizando aprendizaje por refuerzo
Autores: Nam, Hyoungsik; Kim, Young-In; Bae, Jina; Lee, Junhee
Idioma: Inglés
Editor: MDPI
Año: 2021
Disponible con Suscripción Virtualpro
Artículos
Categoría
Ingeniería y Tecnología
Licencia
Atribución – Compartir igual
Consultas: 10
Citaciones: Sin citaciones
Este documento propone un GateRL que es un marco de diseño de circuitos automatizado de compuertas lógicas CMOS basado en aprendizaje por refuerzo. Dado que existen restricciones en la conexión de elementos del circuito, se emplea un esquema de enmascaramiento de acciones. También reduce el tamaño del espacio de acciones, lo que lleva a una mejora en la velocidad de aprendizaje. El GateRL consta de un agente para la acción y un entorno para el estado, la máscara y la recompensa. El estado y la recompensa se generan a partir de una matriz de conexión que describe la configuración actual del circuito, y la máscara se obtiene de una matriz de enmascaramiento basada en restricciones y la matriz de conexión actual. La acción es generada por la red Q profunda de 4 capas de red totalmente conectadas en el agente. En particular, se diseñan búferes de reproducción separados para transiciones exitosas y transiciones fallidas para acelerar el proceso de entrenamiento. La red propuesta se entrena con 2 entradas, 1 salida, 2 transistores NMOS y 2 transistores PMOS para diseñar todas las compuertas lógicas objetivo, como búfer, inversor, Y, O, NOY, y NOO. En consecuencia, el GateRL produce un búfer de un transistor, un inversor de dos transistores, un Y de dos transistores, un O de dos transistores, un NOY de tres transistores y un NOO de tres transistores. Las operaciones de estas lógicas resultantes son verificadas por la simulación SPICE.
Descripción
Este documento propone un GateRL que es un marco de diseño de circuitos automatizado de compuertas lógicas CMOS basado en aprendizaje por refuerzo. Dado que existen restricciones en la conexión de elementos del circuito, se emplea un esquema de enmascaramiento de acciones. También reduce el tamaño del espacio de acciones, lo que lleva a una mejora en la velocidad de aprendizaje. El GateRL consta de un agente para la acción y un entorno para el estado, la máscara y la recompensa. El estado y la recompensa se generan a partir de una matriz de conexión que describe la configuración actual del circuito, y la máscara se obtiene de una matriz de enmascaramiento basada en restricciones y la matriz de conexión actual. La acción es generada por la red Q profunda de 4 capas de red totalmente conectadas en el agente. En particular, se diseñan búferes de reproducción separados para transiciones exitosas y transiciones fallidas para acelerar el proceso de entrenamiento. La red propuesta se entrena con 2 entradas, 1 salida, 2 transistores NMOS y 2 transistores PMOS para diseñar todas las compuertas lógicas objetivo, como búfer, inversor, Y, O, NOY, y NOO. En consecuencia, el GateRL produce un búfer de un transistor, un inversor de dos transistores, un Y de dos transistores, un O de dos transistores, un NOY de tres transistores y un NOO de tres transistores. Las operaciones de estas lógicas resultantes son verificadas por la simulación SPICE.