Initial portal commit: landing + 9 AI-powered apps

Apps: - dwg-rooms: extract room numbers from DWG/DXF - dwg-counting: count symbols in PDF drawings (OpenCV template matching) - contract-check: review PDF contracts against a checklist (Claude vision + Tesseract OCR fallback) - email-drafter: bullet notes → polished Czech/English business emails - invoice-extractor: PDF/image invoice → structured data → Excel - translator: Czech-first translator across 19 languages with tone control - vv-check: find inconsistent unit prices across VV sheets in one workbook - vv-compare: diff original vs new VV files (changes / added / removed) - feature-request: portal users submit ideas + sample files Infrastructure: - LiteLLM gateway with per-app virtual keys + budgets - Langfuse observability - Geist font, shared theme, cross-subdomain back link + theme sync via cookie/URL - Caddy reverse proxy on *.klas.chat
2026-05-13 15:25:04 +02:00
commit 48cef99257
139 changed files with 20171 additions and 0 deletions
--- a/contract-check/analyzer.py
+++ b/contract-check/analyzer.py
@@ -0,0 +1,150 @@
+"""LLM-based contract analysis against a user-supplied checklist."""
+import io
+import json
+import logging
+import os
+from pathlib import Path
+
+import fitz  # PyMuPDF
+from PIL import Image
+import pytesseract
+from openai import AsyncOpenAI
+
+logger = logging.getLogger(__name__)
+
+_client: AsyncOpenAI | None = None
+
+
+def _get_client() -> AsyncOpenAI:
+    global _client
+    if _client is None:
+        _client = AsyncOpenAI(
+            base_url=os.getenv("LITELLM_BASE_URL", "http://host.docker.internal:4000/v1"),
+            api_key=os.getenv("LITELLM_API_KEY", "sk-dummy"),
+        )
+    return _client
+
+
+MODEL = os.getenv("LLM_MODEL", "anthropic/claude-sonnet-4-20250514")
+
+
+SYSTEM_PROMPT = """Jste expert na české obchodní právo a pomáháte podnikateli posoudit smlouvu, kterou má podepsat.
+
+Vaším úkolem je analyzovat smlouvu z pohledu PŘÍJEMCE smlouvy (toho, kdo ji má podepsat), nikoliv toho, kdo ji sepsal. Hledáte rizika, nevýhodná ustanovení a věci, na které by si měl dát příjemce pozor.
+
+Text smlouvy obdržíte rozdělený podle stran — každá strana začíná značkou "--- Strana N ---". U každého citátu MUSÍTE uvést, na které straně se nachází.
+
+Pro každý bod kontrolního seznamu posoudíte smlouvu a vrátíte JSON s následující strukturou:
+
+{
+  "items": [
+    {
+      "id": "id_polozky",
+      "status": "ok" | "warning" | "problem" | "missing",
+      "title": "Krátký nadpis nálezu (3-7 slov)",
+      "summary": "1-3 věty vysvětlující nález z pohledu příjemce smlouvy",
+      "excerpts": [
+        {
+          "text": "Přesný citát ze smlouvy (krátký, 5-15 slov, ideálně dohledatelný v PDF)",
+          "comment": "Stručný komentář k úryvku — co znamená / proč je to relevantní",
+          "page": <číslo strany, kde se citát nachází (celé číslo)>
+        }
+      ]
+    }
+  ],
+  "overall_summary": "Celkové shrnutí 3-5 vět: hlavní rizika a hlavní výhody. ŽÁDNÁ doporučení co dělat.",
+  "risk_level": "low" | "medium" | "high"
+}
+
+Pravidla:
+- Status "ok" = ustanovení je vyvážené a bezpečné pro příjemce
+- Status "warning" = stojí za pozornost, ne nutně problém
+- Status "problem" = jasně nevýhodné nebo riskantní pro příjemce
+- Status "missing" = bod se ve smlouvě nepokrývá (chybí ustanovení)
+- Excerpts musí být DOSLOVNÉ citáty ze smlouvy (kvůli zvýraznění v PDF). Pokud nelze citovat (např. status=missing), vraťte prázdné pole [].
+- KAŽDÝ citát MUSÍ obsahovat číslo strany ("page"). Stranu poznáte podle značky "--- Strana N ---" před textem.
+- NEDÁVEJTE doporučení co s nálezem dělat — uživatel sám ví, co bude řešit. Pouze konstatujte fakta.
+- Komentáře piště česky, věcně a stručně.
+- Nevymýšlejte si — pokud něco ve smlouvě není, řekněte to.
+- Vraťte POUZE JSON, žádný markdown, žádný text okolo."""
+
+
+async def analyze_contract(pdf_path: Path, checklist_items: list[dict]) -> dict:
+    """Run LLM analysis on a contract PDF against the given checklist."""
+    text, used_ocr = _extract_text(pdf_path)
+    if not text.strip():
+        raise RuntimeError(
+            "Z PDF se nepodařilo získat žádný text — ani standardním "
+            "způsobem ani OCR. Zkuste lepší kvalitu skenu nebo PDF s textovou vrstvou."
+        )
+
+    checklist_block = "\n".join(
+        f"- id={it['id']}: {it['label']} — {it.get('hint', '')}"
+        for it in checklist_items
+    )
+
+    user_msg = f"""KONTROLNÍ SEZNAM (co posoudit):
+{checklist_block}
+
+TEXT SMLOUVY:
+{text}
+
+Vraťte JSON s analýzou každé položky kontrolního seznamu."""
+
+    resp = await _get_client().chat.completions.create(
+        model=MODEL,
+        messages=[
+            {"role": "system", "content": SYSTEM_PROMPT},
+            {"role": "user", "content": user_msg},
+        ],
+        temperature=0.1,
+        max_tokens=8000,
+    )
+    raw = (resp.choices[0].message.content or "").strip()
+    logger.info("Analysis raw length: %d chars", len(raw))
+    # Strip markdown fences if model wrapped it anyway
+    raw = raw.removeprefix("```json").removeprefix("```").removesuffix("```").strip()
+    try:
+        data = json.loads(raw)
+    except json.JSONDecodeError as e:
+        logger.error("JSON parse failed: %s\n%s", e, raw[:1000])
+        raise RuntimeError(f"Nepodařilo se zpracovat odpověď AI: {e}")
+    # Tell the caller whether we had to OCR — UI can show a notice and
+    # we'll skip in-page highlighting since the original PDF has no text layer.
+    data["_used_ocr"] = used_ocr
+    return data
+
+
+def _extract_text(pdf_path: Path) -> tuple[str, bool]:
+    """Extract text from PDF. Falls back to OCR if the PDF has no text layer.
+
+    Returns (text, used_ocr).
+    """
+    doc = fitz.open(str(pdf_path))
+    parts = []
+    total_chars = 0
+    for i, page in enumerate(doc):
+        t = page.get_text()
+        parts.append(f"--- Strana {i + 1} ---\n{t}")
+        total_chars += len(t.strip())
+    # Heuristic: <20 chars per page on average → looks like a scan
+    needs_ocr = doc.page_count > 0 and (total_chars / max(doc.page_count, 1)) < 20
+    if not needs_ocr:
+        doc.close()
+        return "\n\n".join(parts), False
+
+    logger.info("PDF appears to be scanned (~%d chars across %d pages) — running OCR",
+                total_chars, doc.page_count)
+    parts = []
+    for i, page in enumerate(doc):
+        # Rasterize page at 250 DPI for OCR quality
+        pix = page.get_pixmap(dpi=250, alpha=False)
+        img = Image.frombytes("RGB", (pix.width, pix.height), pix.samples)
+        try:
+            ocr_text = pytesseract.image_to_string(img, lang="ces+eng")
+        except pytesseract.TesseractError as e:
+            logger.error("Tesseract failed on page %d: %s", i + 1, e)
+            ocr_text = ""
+        parts.append(f"--- Strana {i + 1} ---\n{ocr_text}")
+    doc.close()
+    return "\n\n".join(parts), True