Vad är komponenten Dokument till Text?

Komponenten hämtar kunskap från hämtarkomponenter och omvandlar det till läsbar markdown-text, som sedan kan kopplas till vilken komponent som helst som tar text som indata.

Dokument till text

AI kan analysera stora mängder data på några sekunder, men bara en del av datan kommer vara relevant eller lämplig för utmatning. Komponenten Dokument till Text ger dig kontroll över hur data från hämtare bearbetas och omvandlas till text.

Dokument till Text-komponenten är utformad för att omvandla kunskapsdokument till ett rent textformat. Detta är särskilt användbart i AI- och databearbetningsflöden där textdata behövs för vidare bearbetning, analys eller som indata till språkmodeller.

Vad komponenten gör

Den här komponenten tar emot ett eller flera strukturerade dokument (såsom HTML, Markdown, PDF eller andra stödda format) och extraherar textinnehållet. Du kan exakt ange vilka delar av dokumenten som ska exporteras, om metadata ska inkluderas, och hur dokumentsektioner eller rubriker ska hanteras. Utmatningen är ett enhetligt meddelandeobjekt som innehåller den extraherade texten, redo för nedströmsuppgifter som summering, klassificering eller frågehantering.

Indata

Komponenten accepterar flera konfigurerbara indata:

Indatanamn	Typ	Obligatorisk	Beskrivning	Standardvärde
Dokument	List[Document]	Ja	Kunskapsdokumenten att omvandla till text.	N/A (användarens val)
Från H1 om finns	Boolean	Ja	Starta extraheringen från första H1-rubriken om den finns.	true
Ladda från pekare	Boolean	Ja	Starta extraheringen från pekaren som bäst matchar inmatningsfrågan, eller ladda alla om ingen matchar.	true
Max antal tecken	Integer	Nej	Maximalt antal tecken i utmatningstexten.	3000
Hoppa över sista rubrik	Boolean	Ja	Hoppa över sista rubriken (ofta en sidfot) för att optimera utmatningen.	false
Strategi	String	Ja	Textens extraheringsstrategi: sammanfoga dokument eller inkludera lika mycket från varje.	“Inkludera lika mycket från varje dokument”
Exportera innehåll	Flera val	Nej	Vilka innehållstyper som ska inkluderas (t.ex. H1, H2, stycke).	Alla typer valda
Inkludera metadata	Flera val	Nej	Vilka metadatafält som ska inkluderas i utmatningen om de finns.	Produkt

Tillgängliga innehållstyper: H1, H2, H3, H4, H5, H6, Stycke
Metadata-alternativ: Författare, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Utdata

Komponenten ger följande utdata:

Meddelande: Ett meddelandeobjekt som innehåller den transformerade texten och eventuell inkluderad metadata.

Viktiga funktioner & användningsområden

Flexibel innehållsextrahering: Styr exakt vilka delar av dina dokument som extraheras (t.ex. bara huvudrubriker och stycken, eller allt innehåll).
Inkludering av metadata: Möjlighet att inkludera rik metadata (t.ex. författare, produkt eller strukturerad data) i utmatningen, användbart för vidare kontextualisering.
Hantering av teckenbegränsning: Begränsa utmatningens storlek för att passa krav på nedströmsmodeller genom att ställa in ett maxantal tecken.
Anpassningsbar extraheringsstrategi:
- Sammanfoga dokument, fyll från första upp till teckengräns: Prioriterar att fylla utmatningen sekventiellt från det första dokumentet.
- Inkludera lika mycket från varje dokument: Balanserar innehållet från flera dokument inom teckengränsen.
Smart sektionshantering: Alternativ för att hoppa över sidfötter eller starta från den mest relevanta sektionen för din fråga, vilket ökar relevansen i den extraherade texten.

Typiska användningsområden

Förbearbetning av kunskapsbaser för AI-modeller (t.ex. innan inbäddning eller indexering).
Sammanfatta eller kondensera stora dokument genom att bara extrahera relevanta sektioner.
Mata strukturerat innehåll till chattbottar, sökmotorer eller andra processer för naturlig språkbehandling.
Bygga hybrida hämtningssystem som kombinerar text med metadata för rikare kontext.

Sammanfattande tabell

Funktionalitet	Beskrivning
Indatatyper	Lista över dokument
Utdatatyp	Meddelande (Text + Metadata)
Innehållsgranularitet	Välj rubriker/stycken att inkludera
Metadata-alternativ	Välj flera metadatafält att exportera
Kontroll över utmatningsstorlek	Ställ in max antal tecken
Extraheringsstrategier	Sammanfoga eller balansera mellan dokument
Sektionsval	Börja från H1, från pekare, eller hoppa över sista rubrik

Strategi

Boten kan genomsöka många dokument för att skapa textutmatningen. Inställningen Strategi låter dig styra hur den använder dessa dokument smart inom teckengränsen.

För närvarande finns två möjliga strategier:

Inkludera lika mycket från varje dokument: Utnyttjar alla hittade dokument lika mycket.
Sammanfoga dokument, fyll från första upp till teckengräns: Länkar ihop dokumenten och prioriterar dem utifrån relevans för frågan.

Så här kopplar du komponenten Dokument till Text till ditt flöde

Detta är en transformator-komponent, vilket innebär att den överbryggar gapet mellan två utdata. Dokument till Text tar emot dokument som levererats av hämtarkomponenter:

Dokumenthämtare – hämtar kunskap från anslutna kunskapskällor (sidor, dokument, etc.).
URL-hämtare – Låter dig ange en URL som boten ska hämta kunskap från.
GoogleSearch – Ger boten möjlighet att söka på webben efter kunskap.

Kunskapen konverteras till läsbar Markdown-text när den passerar genom transformatorn. Denna text kan sedan kopplas till komponenter som kräver textindata, såsom delare, widgets eller utmatningar.

Här är ett exempel på ett flöde som använder komponenten Dokument till Text för att överbrygga gapet mellan dokumenthämtare och AI-generatorn: