t6_mem0/embedchain/loaders/code_docs_page.py

import requests
from bs4 import BeautifulSoup

from embedchain.utils import clean_string


class CodeDocsPageLoader:
    def load_data(self, url):
        """Load data from a web page."""
        response = requests.get(url)
        data = response.content
        soup = BeautifulSoup(data, "html.parser")
        selectors = [
            "article.bd-article",
            'article[role="main"]',
            "div.md-content",
            'div[role="main"]',
            "div.container",
            "div.section",
            "article",
            "main",
        ]
        content = None
        for selector in selectors:
            element = soup.select_one(selector)
            if element is not None:
                content = element.prettify()
                break
        if not content:
            content = soup.get_text()
        soup = BeautifulSoup(content, "html.parser")
        for tag in soup(
            [
                "nav",
                "aside",
                "form",
                "header",
                "noscript",
                "svg",
                "canvas",
                "footer",
                "script",
                "style",
            ]
        ):
            tag.string = " "
        for div in soup.find_all("div", {"class": "cell_output"}):
            div.decompose()
        for div in soup.find_all("div", {"class": "output_wrapper"}):
            div.decompose()
        for div in soup.find_all("div", {"class": "output"}):
            div.decompose()
        content = clean_string(soup.get_text())
        output = []
        meta_data = {
            "url": url,
        }
        output.append(
            {
                "content": content,
                "meta_data": meta_data,
            }
        )
        return output