Tabular AutoML¶

FastAPI app init for the tabular AutoML service.

`TabularSupervisedClassificationTask` ¶

Bases: TabularTask

Tabular classification task configuration.

Typical use-cases: churn prediction, loan approval, disease type, etc.

Source code in app/tabular_automl/models.py

class TabularSupervisedClassificationTask(TabularTask):
    """Tabular classification task configuration.

    Typical use-cases: churn prediction, loan approval, disease type, etc.
    """

    task_type: str = "tabular_classification"

`TabularSupervisedRegressionTask` ¶

Bases: TabularTask

Tabular regression task configuration.

Predicts continuous numeric values (e.g., price, salary, demand).

Source code in app/tabular_automl/models.py

class TabularSupervisedRegressionTask(TabularTask):
    """Tabular regression task configuration.

    Predicts continuous numeric values (e.g., price, salary, demand).
    """

    task_type: str = "tabular_regression"

`TabularSupervisedTimeSeriesTask` ¶

Bases: TabularTask

Time-series forecasting task configuration for tabular data.

Source code in app/tabular_automl/models.py

class TabularSupervisedTimeSeriesTask(TabularTask):
    """Time-series forecasting task configuration for tabular data."""

    task_type: str = "tabular_time_series"
    time_stamp_col: str = "timestamp"

`TabularTask` ¶

Bases: BaseModel

Base Pydantic model describing common tabular task inputs.

Source code in app/tabular_automl/models.py

class TabularTask(BaseModel):
    """Base Pydantic model describing common tabular task inputs."""

    target_feature: str
    time_stamp_col: pd.DataFrame | None = None
    train_file_path: Path
    test_file_path: Path | None = None

    class Config:
        arbitrary_types_allowed: bool = True

`AutoMLTrainer` ¶

Wrapper around AutoGluon Tabular training routines.

Source code in app/tabular_automl/modules.py

class AutoMLTrainer:
    """Wrapper around AutoGluon Tabular training routines."""

    def __init__(
        self,
        save_model_path: Path,
        DatasetClass=TabularDataset,
        PredictorClass=TabularPredictor,
    ):
        self.save_model_path: Path = Path(save_model_path)
        self.DatasetClass = DatasetClass
        self.PredictorClass = PredictorClass
        logger.debug(f"Automl trainer, model path {self.save_model_path}")

    def train(
        self,
        train_df: pd.DataFrame,
        test_df: pd.DataFrame | None,
        target_column: str,
        time_limit: int,
    ) -> tuple[pd.DataFrame | str, TabularPredictor] | str:
        """Train AutoGluon Tabular and return leaderboard or error."""
        final_train_df, final_test_df = self.train_test_split(
            test_df=test_df, train_df=train_df
        )

        train_dataset = self.DatasetClass(final_train_df)
        test_dataset = self.DatasetClass(final_test_df)

        predictor = self.PredictorClass(
            label=target_column, path=str(self.save_model_path)
        ).fit(train_data=train_dataset, time_limit=time_limit)

        save_path_clone_opt = self.save_model_path / "-clone-opt"
        path_clone_opt = predictor.clone_for_deployment(path=str(save_path_clone_opt))
        predictor_clone_opt = self.PredictorClass.load(path=str(path_clone_opt))

        try:
            return predictor.leaderboard(test_dataset), predictor_clone_opt
        except Exception as e:
            logger.error(f"AutoML trainer failed {e}")
            return str(e)

    def train_test_split(
        self, test_df: pd.DataFrame | None, train_df: pd.DataFrame | None = None
    ):
        if test_df is None:
            logger.debug("Test dataset not found, creating split")
            if train_df is not None:
                final_train_df = train_df.sample(
                    frac=DEFAULT_TABULAR_TRAIN_TEST_SPLIT_SIZE, random_state=42
                )
                final_test_df = train_df.drop(index=final_train_df.index.tolist())
            else:
                logger.error("Train df is empty")
                return str("Train df is empty")
        else:
            logger.debug("Test dataset found")
            final_train_df = train_df
            final_test_df = test_df
        return final_train_df, final_test_df

`train(train_df, test_df, target_column, time_limit)` ¶

Train AutoGluon Tabular and return leaderboard or error.

Source code in app/tabular_automl/modules.py

def train(
    self,
    train_df: pd.DataFrame,
    test_df: pd.DataFrame | None,
    target_column: str,
    time_limit: int,
) -> tuple[pd.DataFrame | str, TabularPredictor] | str:
    """Train AutoGluon Tabular and return leaderboard or error."""
    final_train_df, final_test_df = self.train_test_split(
        test_df=test_df, train_df=train_df
    )

    train_dataset = self.DatasetClass(final_train_df)
    test_dataset = self.DatasetClass(final_test_df)

    predictor = self.PredictorClass(
        label=target_column, path=str(self.save_model_path)
    ).fit(train_data=train_dataset, time_limit=time_limit)

    save_path_clone_opt = self.save_model_path / "-clone-opt"
    path_clone_opt = predictor.clone_for_deployment(path=str(save_path_clone_opt))
    predictor_clone_opt = self.PredictorClass.load(path=str(path_clone_opt))

    try:
        return predictor.leaderboard(test_dataset), predictor_clone_opt
    except Exception as e:
        logger.error(f"AutoML trainer failed {e}")
        return str(e)