AI kan analysera stora mängder data på några sekunder, men bara en del av datan kommer vara relevant eller lämplig för utmatning. Komponenten Dokument till Text ger dig kontroll över hur data från hämtare bearbetas och omvandlas till text.
Dokument till Text-komponenten är utformad för att omvandla kunskapsdokument till ett rent textformat. Detta är särskilt användbart i AI- och databearbetningsflöden där textdata behövs för vidare bearbetning, analys eller som indata till språkmodeller.
Vad komponenten gör
Den här komponenten tar emot ett eller flera strukturerade dokument (såsom HTML, Markdown, PDF eller andra stödda format) och extraherar textinnehållet. Du kan exakt ange vilka delar av dokumenten som ska exporteras, om metadata ska inkluderas, och hur dokumentsektioner eller rubriker ska hanteras. Utmatningen är ett enhetligt meddelandeobjekt som innehåller den extraherade texten, redo för nedströmsuppgifter som summering, klassificering eller frågehantering.
Indata
Komponenten accepterar flera konfigurerbara indata:
| Indatanamn | Typ | Obligatorisk | Beskrivning | Standardvärde |
|---|---|---|---|---|
| Dokument | List[Document] | Ja | Kunskapsdokumenten att omvandla till text. | N/A (användarens val) |
| Från H1 om finns | Boolean | Ja | Starta extraheringen från första H1-rubriken om den finns. | true |
| Ladda från pekare | Boolean | Ja | Starta extraheringen från pekaren som bäst matchar inmatningsfrågan, eller ladda alla om ingen matchar. | true |
| Max antal tecken | Integer | Nej | Maximalt antal tecken i utmatningstexten. | 3000 |
| Hoppa över sista rubrik | Boolean | Ja | Hoppa över sista rubriken (ofta en sidfot) för att optimera utmatningen. | false |
| Strategi | String | Ja | Textens extraheringsstrategi: sammanfoga dokument eller inkludera lika mycket från varje. | “Inkludera lika mycket från varje dokument” |
| Exportera innehåll | Flera val | Nej | Vilka innehållstyper som ska inkluderas (t.ex. H1, H2, stycke). | Alla typer valda |
| Inkludera metadata | Flera val | Nej | Vilka metadatafält som ska inkluderas i utmatningen om de finns. | Produkt |
Tillgängliga innehållstyper: H1, H2, H3, H4, H5, H6, Stycke
Metadata-alternativ: Författare, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph
Utdata
Komponenten ger följande utdata:
- Meddelande: Ett meddelandeobjekt som innehåller den transformerade texten och eventuell inkluderad metadata.
Viktiga funktioner & användningsområden
- Flexibel innehållsextrahering: Styr exakt vilka delar av dina dokument som extraheras (t.ex. bara huvudrubriker och stycken, eller allt innehåll).
- Inkludering av metadata: Möjlighet att inkludera rik metadata (t.ex. författare, produkt eller strukturerad data) i utmatningen, användbart för vidare kontextualisering.
- Hantering av teckenbegränsning: Begränsa utmatningens storlek för att passa krav på nedströmsmodeller genom att ställa in ett maxantal tecken.
- Anpassningsbar extraheringsstrategi:
- Sammanfoga dokument, fyll från första upp till teckengräns: Prioriterar att fylla utmatningen sekventiellt från det första dokumentet.
- Inkludera lika mycket från varje dokument: Balanserar innehållet från flera dokument inom teckengränsen.
- Smart sektionshantering: Alternativ för att hoppa över sidfötter eller starta från den mest relevanta sektionen för din fråga, vilket ökar relevansen i den extraherade texten.
Typiska användningsområden
- Förbearbetning av kunskapsbaser för AI-modeller (t.ex. innan inbäddning eller indexering).
- Sammanfatta eller kondensera stora dokument genom att bara extrahera relevanta sektioner.
- Mata strukturerat innehåll till chattbottar, sökmotorer eller andra processer för naturlig språkbehandling.
- Bygga hybrida hämtningssystem som kombinerar text med metadata för rikare kontext.
Sammanfattande tabell
| Funktionalitet | Beskrivning |
|---|---|
| Indatatyper | Lista över dokument |
| Utdatatyp | Meddelande (Text + Metadata) |
| Innehållsgranularitet | Välj rubriker/stycken att inkludera |
| Metadata-alternativ | Välj flera metadatafält att exportera |
| Kontroll över utmatningsstorlek | Ställ in max antal tecken |
| Extraheringsstrategier | Sammanfoga eller balansera mellan dokument |
| Sektionsval | Börja från H1, från pekare, eller hoppa över sista rubrik |
Strategi
Boten kan genomsöka många dokument för att skapa textutmatningen. Inställningen Strategi låter dig styra hur den använder dessa dokument smart inom teckengränsen.
För närvarande finns två möjliga strategier:
- Inkludera lika mycket från varje dokument: Utnyttjar alla hittade dokument lika mycket.
- Sammanfoga dokument, fyll från första upp till teckengräns: Länkar ihop dokumenten och prioriterar dem utifrån relevans för frågan.
Så här kopplar du komponenten Dokument till Text till ditt flöde
Detta är en transformator-komponent, vilket innebär att den överbryggar gapet mellan två utdata. Dokument till Text tar emot dokument som levererats av hämtarkomponenter:
- Dokumenthämtare – hämtar kunskap från anslutna kunskapskällor (sidor, dokument, etc.).
- URL-hämtare – Låter dig ange en URL som boten ska hämta kunskap från.
- GoogleSearch – Ger boten möjlighet att söka på webben efter kunskap.
Kunskapen konverteras till läsbar Markdown-text när den passerar genom transformatorn. Denna text kan sedan kopplas till komponenter som kräver textindata, såsom delare, widgets eller utmatningar.
Här är ett exempel på ett flöde som använder komponenten Dokument till Text för att överbrygga gapet mellan dokumenthämtare och AI-generatorn:

