தரவுக்கணம்
தரவுக்கணம் அல்லது தரவுத் தொகுப்பு (Dataset) என்பது தரவுகளின் தொகுப்பு ஆகும். பொதுவாக ஒரு தரவுத்தளத்தில் அமைந்துள்ள அட்டவணையின் உள்ளடக்கத்தை குறிக்கும். அட்டவணையில் உள்ள ஒவ்வொரு பத்தியை(column) ஒரு குறிப்பிட்ட மாறி குறிக்கிறது, மற்றும் ஒவ்வொரு வரிசையும்(row) தரவில் உள்ள ஒரு குறிப்பிட்ட உறுப்பினரை ஒத்துள்ளது. தரவுக்கணம் என்பது தரவு பொருட்களின் தொகுப்பாகவும் கருதலாம். [1]
பண்புகள்
பொதுவாக நாம் தரவுக்கணத்தின் பண்புகளாக பின்வரும் மூன்றை குறிப்பிடலாம்:
பரிமாணம் (Dimensionality)
பரிமாணம் என்பது தரவுக்கணத்தில் உள்ள தரவுப் பொருள் எத்தனை இயற்பண்புகளை கொண்டுள்ளது என்பதை குறிக்கிறது.
ஸ்பார்சிட்டி (Sparsity)
ஸ்பார்சிட்டி என்பது தரவுகளில் பூஜ்யம் இல்லாத மதிப்புக்களின் எண்ணிக்கையை குறிக்கும். இது குறிப்பிடத்தக்க வகையில் கணக்கிடுதல் நேரத்தையும் சேமிப்பையும் மிச்சப்படுத்துகிறது.
நுணுக்கம் (Resolution)
தரவுக்கணத்தின் நுணுக்கத்தை பொறுத்து தரவின் பண்புகள் வேறுபடும்.தரவுக்கணத்தின் நுணுக்கம் கரடுமுரடனதாக இருந்தால் தரவின் அமைப்பை அறிய முடியாது.
தரவுக்கனத்தின் வகைகள்
- பதிவுத் தரவு
- வரைபட தரவு
- வரிசையிடபட்ட தரவு
பொது பயன்பாட்டு தரவுக்கனங்கள்
பொது பயன்பாட்டு தரவுக்கனங்களின் தொகுப்புகள் பொதுவாக ஆராய்ச்சி நோக்கங்களுக்காகவும், கற்பதற்காகவும் இலவசமாக கிடைக்கும் தரவுக்கனங்கள் ஆகும்.